根據 Beating,Xiaomi 的 AI Lab Kaldi 團隊已將 OmniVoice 進行開源。該模型是一種零樣本語音克隆的 TTS 模型,支援 646 種語言。該模型僅需幾秒的參考音訊即可克隆語音特徵,並能跨語言運作——同一個聲音可以合成中文、日文、韓文以及其他語言的語音。所有程式碼、權重與訓練資料皆在 Apache-2.0 授權下開源。
OmniVoice 採用簡化架構,使用單一雙向 Transformer,直接將文字對應到離散的聲學代幣,並在 PyTorch 中實現比即時快 40 倍的推論速度。OmniVoice 使用來自 50 個開源資料集的 580,000 小時音訊進行訓練,在針對 24 種測試語言的語音相似度與可懂度方面,表現優於商業系統;並在 102 種語言中達到或超過人類錄音的水準。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
基準重申 Bitdeer 的 BTDR 買入評級為 $27,隨著在 AI 基礎設施推動下 BTDR 上漲 21%
根據 Benchmark Equity Research,在週四該公司重申了對 Bitdeer Technologies(BTDR)的買入評級以及 27 美元的目標價,並指出隨著股價轉向 AI 的過程,其重新評價的潛力
GateNews3小時前
重生影片推出 BACH AI 工具,用於最多 30 秒的多段式影片生成
Video Rebirth 於 5 月 7 日推出 BACH,這是一款工具,可從文字提示與參考影像生成最多 30 秒的多段式影片。該工具可在各鏡頭之間維持角色一致性,遵循相機指令,並產出原生 1080p 影片,包含音效、旁白以及
GateNews9小時前
Tether 發布 QVAC MedPsy 醫療 AI 模型,並在 17B 參數版本上取得 62.62 分
根據 Odaily,Tether AI Research Group 釋出了 QVAC MedPsy,這是一款醫療 AI 模型,旨在不依賴雲端的情況下可在智慧型手機與穿戴式裝置上本地運行。這款 17 億參數版本在七項醫療基準上取得 62.62 分,表現優於 Google 的 MedGemma-1.5-4B,領先 11.42 poi
GateNews10小時前
TCV 領投 $160M Corgi 保險 新創的 B 輪
Corgi 是一家總部位於美國的商業保險新創公司,據 TechCrunch 報導,該公司於 5 月 6 日宣布由 TCV 領投、估值 13 億美元的 B 輪融資募得 1.6 億美元。此輪融資還包含 Kindred Ventures、Leblon Capital 和 First Order Fund。這使得 Corgi 的累計融資總額達到 2.68
Crypto Frontier18小時前
B.AI 於 5 月 7 日超越 170 萬名用戶,推出獎勵計畫
根據 B.AI,該 AI 基礎設施平台在 5 月 7 日用戶數突破 170 萬。該平台主打隱私保護與代理經濟基礎設施,註冊後為新用戶提供 50 萬個免費額度,所有模型皆採零加價定價,並提供限時 1:1,
GateNews18小時前
Osome 削減 70+ 個角色,透過 AI 轉型將 EBITDA 提升 50%
根據 Tech in Asia,總部位於新加坡的企業管理平台 Osome 在過去兩年已裁撤超過 70 個職位,同時部署 AI 來處理合規任務,例如記錄交易與處理發票。執行長 Eugenio Ferrante 表示,公司放緩了收入增長速度 i
GateNews21小時前