輝達發表 Granary 開源語音資料庫與 AI 多國語言訓練模型,加速翻譯與語音對話發展

全球約有 7,000 多種語言,目前主流的 AI 語音翻譯技術僅支援其中一小部分。為了提升辨別少數語言,輝達 NVIDIA 推出Granary 多國語言音檔數據庫,涵蓋包括 25 種歐洲語言與稀少語言,同步發表兩款全新的 AI 模型 「Canary-1b-v2」 和 「Parakeet-tdt-0.6b-v3」為開發團隊帶來更準確高效的語音識別與翻譯解決方案。
Granary 涵蓋稀有語言翻譯
Granary 語音數據庫為 NVIDIA 與卡內基美隆大學及 Bruno Kessler 基金會共同合作的成果。為了解決稀少語言在 AI 發展上的瓶頸,研究團隊透過運用 NVIDIA NeMo 語音資料處理工具,將海量未標註的公共音源數據轉換為結構化、高品質的訓練樣本,無需大量人工標註,即可供 AI 模型進行有效學習。
Granary 包含約 65 萬小時的語音識別檔案與超過 35 萬小時的語音翻譯資料,涵蓋 25 種歐洲語言,包括資料相對不足的愛沙尼亞語、克羅埃西亞語和馬耳他語,亦支援俄語與烏克蘭語。讓開發者能更快速且有效益的訓練歐盟多數官方語言的 ASR(自動語音辨識)與 AST(自動語音翻譯)模型,進一步提升語音 AI 的語言多樣性與包容性。
研究報告顯示相較於其他熱門數據庫,Granary 僅需一半的訓練數據即可達到類似的辨識與翻譯準確率,特別適合用於代表性不足的語言開發工作。Granary 數據集已於 GitHub 上發表開源碼,將於 8 月 17 日至 21 日在荷蘭舉行的 Interspeech 語音技術會議中發表相關研究成果。
Canary-1b-v2 :翻譯高精度多語言語音
為了示範 Granary 的應用潛力,NVIDIA 推出兩款語音模型,Canary-1b-v2 擁有十億參數的模型,專為高準確度的語音轉錄與翻譯任務而設計,該模型在 Hugging Face 的多語言語音辨識排行榜上名列前茅,支援 25 種語言的語音轉錄與英語互譯,其語音處理品質已接近規模大三倍的模型,在推理速度上可快上十倍。
Parakeet-tdt-0.6b-v3 :處理高吞吐量的即時語音模型
Parakeet-tdt-0.6b-v3 模型強調高速與高吞吐量處理能力,擁有 6 億參數的精簡模型,可在單次推理中處理長達 24 分鐘的音訊,自動偵測輸入語言進行轉錄,無需額外提示設定。其性能在 Hugging Face 上也居於領先地位,特別適合需要低延遲與即時反應的應用場景。
AI 進化生成語音翻譯與字幕
Canary-1b-v2 和 Parakeet-tdt-0.6b-v3 兩款模型均提供完整的標點、標記與時間戳自動大寫功能與單字級時間戳記,便於應用於字幕生成、多語言客服、語音翻譯與虛擬助理等適用多種應用場景。開發者亦可依據應用需求進行模型微調或重新訓練,擴展至其他語言與應用領域。
NVIDIA NeMo 平台加速語音翻譯發展
語音翻譯創新背後是 NVIDIA 模組化 AI 開發平台 NeMo,專為 AI 模型的生命週期管理而設計。NeMo Curator 工具可協助從來源資料中篩選合適樣本,確保模型訓練資料的品質與一致性,NeMo 語音資料處理器將語音資料轉換成模型所需格式,包括語音對齊與資料清洗等。
推動語音 AI 普及與語言多樣性
透過開源的 Granary 與語音模型及背後的資料處理與模型建構方法,NVIDIA 的新技術可推動全球語音 AI 開發團隊加速腳步,特別是在語言翻譯資源稀缺的區域建立更具包容性的技術建設。Granary、Canary 和 Parakeet 同步發布不僅拓寬語音 AI 的語言邊界,也為打造全球化、多語言的 AI 對話與翻譯系統提供了堅實的基礎。
數據庫與模型已開放下載,如需取得數據集與模型,可至 GitHub 與 Hugging Face 平台下載,探索這些資源可以如何推動語音技術的未來。
這篇文章 輝達發表 Granary 開源語音資料庫與 AI 多國語言訓練模型,加速翻譯與語音對話發展 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
Bitget 現貨槓桿新增 SAPIEN/USDT!
關於 PYUSD 支援統一帳戶保證金及 U 本位合約聯合保證金之公告
CandyBomb x SAPIEN:合約交易瓜分 150,000 SAPIEN!
交易俱樂部爭霸賽(第 5 期)- 瓜分 80,000 BGB 獎池,單人最高獨享 800 BGB 獎勵!
加密貨幣價格
更多








