輝達發表 Granary 開源語音資料庫與 AI 多國語言訓練模型，加速翻譯與語音對話發展

Abmedia2025/08/15 18:50

作者:DW

輝達發表 Granary 開源語音資料庫與 AI 多國語言訓練模型，加速翻譯與語音對話發展 image 0

全球約有 7,000 多種語言，目前主流的 AI 語音翻譯技術僅支援其中一小部分。為了提升辨別少數語言，輝達 NVIDIA 推出Granary 多國語言音檔數據庫，涵蓋包括 25 種歐洲語言與稀少語言，同步發表兩款全新的 AI 模型「Canary-1b-v2」和「Parakeet-tdt-0.6b-v3」為開發團隊帶來更準確高效的語音識別與翻譯解決方案。

Granary 涵蓋稀有語言翻譯

Granary 語音數據庫為 NVIDIA 與卡內基美隆大學及 Bruno Kessler 基金會共同合作的成果。為了解決稀少語言在 AI 發展上的瓶頸，研究團隊透過運用 NVIDIA NeMo 語音資料處理工具，將海量未標註的公共音源數據轉換為結構化、高品質的訓練樣本，無需大量人工標註，即可供 AI 模型進行有效學習。

Granary 包含約 65 萬小時的語音識別檔案與超過 35 萬小時的語音翻譯資料，涵蓋 25 種歐洲語言，包括資料相對不足的愛沙尼亞語、克羅埃西亞語和馬耳他語，亦支援俄語與烏克蘭語。讓開發者能更快速且有效益的訓練歐盟多數官方語言的 ASR（自動語音辨識）與 AST（自動語音翻譯）模型，進一步提升語音 AI 的語言多樣性與包容性。

研究報告顯示相較於其他熱門數據庫，Granary 僅需一半的訓練數據即可達到類似的辨識與翻譯準確率，特別適合用於代表性不足的語言開發工作。Granary 數據集已於 GitHub 上發表開源碼，將於 8 月 17 日至 21 日在荷蘭舉行的 Interspeech 語音技術會議中發表相關研究成果。

Canary-1b-v2 ：翻譯高精度多語言語音

為了示範 Granary 的應用潛力，NVIDIA 推出兩款語音模型，Canary-1b-v2 擁有十億參數的模型，專為高準確度的語音轉錄與翻譯任務而設計，該模型在 Hugging Face 的多語言語音辨識排行榜上名列前茅，支援 25 種語言的語音轉錄與英語互譯，其語音處理品質已接近規模大三倍的模型，在推理速度上可快上十倍。

Parakeet-tdt-0.6b-v3 ：處理高吞吐量的即時語音模型

Parakeet-tdt-0.6b-v3 模型強調高速與高吞吐量處理能力，擁有 6 億參數的精簡模型，可在單次推理中處理長達 24 分鐘的音訊，自動偵測輸入語言進行轉錄，無需額外提示設定。其性能在 Hugging Face 上也居於領先地位，特別適合需要低延遲與即時反應的應用場景。

AI 進化生成語音翻譯與字幕

Canary-1b-v2 和 Parakeet-tdt-0.6b-v3 兩款模型均提供完整的標點、標記與時間戳自動大寫功能與單字級時間戳記，便於應用於字幕生成、多語言客服、語音翻譯與虛擬助理等適用多種應用場景。開發者亦可依據應用需求進行模型微調或重新訓練，擴展至其他語言與應用領域。

NVIDIA NeMo 平台加速語音翻譯發展

語音翻譯創新背後是 NVIDIA 模組化 AI 開發平台 NeMo，專為 AI 模型的生命週期管理而設計。NeMo Curator 工具可協助從來源資料中篩選合適樣本，確保模型訓練資料的品質與一致性，NeMo 語音資料處理器將語音資料轉換成模型所需格式，包括語音對齊與資料清洗等。

推動語音 AI 普及與語言多樣性

透過開源的 Granary 與語音模型及背後的資料處理與模型建構方法，NVIDIA 的新技術可推動全球語音 AI 開發團隊加速腳步，特別是在語言翻譯資源稀缺的區域建立更具包容性的技術建設。Granary、Canary 和 Parakeet 同步發布不僅拓寬語音 AI 的語言邊界，也為打造全球化、多語言的 AI 對話與翻譯系統提供了堅實的基礎。

數據庫與模型已開放下載，如需取得數據集與模型，可至 GitHub 與 Hugging Face 平台下載，探索這些資源可以如何推動語音技術的未來。

這篇文章輝達發表 Granary 開源語音資料庫與 AI 多國語言訓練模型，加速翻譯與語音對話發展最早出現於鏈新聞 ABMedia。

免責聲明：文章中的所有內容僅代表作者的觀點，與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX：鎖倉獲得新代幣空投

不要錯過熱門新幣，且APR 高達 10%+

立即參與