Meta AI Memperkenalkan ASR Omnilingual, Mengembangkan Pengenalan Ucapan Otomatis di Lebih dari 1,600 Bahasa
Singkatnya Meta AI telah meluncurkan sistem ASR Omnilingual, menyediakan pengenalan suara untuk lebih dari 1,600 bahasa dan merilis model sumber terbuka dan korpus untuk 350 bahasa yang kurang terlayani.
Divisi penelitian perusahaan teknologi Meta yang mengkhususkan diri dalam AI dan augmented reality, Meta AI mengumumkan peluncuran sistem Pengenalan Ucapan Otomatis (ASR) Meta Omnilingual.
Rangkaian model ini menghadirkan pengenalan ucapan otomatis untuk lebih dari 1,600 bahasa, mencapai kinerja berkualitas tinggi dalam skala yang belum pernah terjadi sebelumnya. Selain itu, Meta AI juga menyediakan Omnilingual wav2vec 2.0, sebuah model representasi ucapan multibahasa masif yang diawasi sendiri dan memiliki 7 miliar parameter, yang dirancang untuk mendukung berbagai tugas ucapan hilir.
Di samping alat-alat ini, organisasi tersebut juga merilis Omnilingual ASR Corpus, koleksi transkripsi ucapan yang dikurasi dari 350 bahasa yang kurang terlayani, yang dikembangkan melalui kemitraan dengan kolaborator global.
Pengenalan ucapan otomatis telah berkembang pesat dalam beberapa tahun terakhir, mencapai akurasi yang hampir sempurna untuk banyak bahasa yang umum digunakan. Namun, memperluas cakupan ke bahasa-bahasa dengan sumber daya terbatas tetap menjadi tantangan karena tingginya tuntutan data dan komputasi dari arsitektur AI yang ada. Sistem ASR Omnilingual mengatasi keterbatasan ini dengan menskalakan encoder ucapan wav2vec 2.0 hingga 7 miliar parameter, menciptakan representasi multibahasa yang kaya dari ucapan mentah yang belum ditranskripsi. Dua varian dekoder memetakan representasi ini ke dalam token karakter: satu menggunakan klasifikasi temporal koneksionis (CTC) dan yang lainnya menggunakan pendekatan berbasis transformator yang serupa dengan yang digunakan dalam model bahasa besar.
Pendekatan ASR yang terinspirasi LLM ini mencapai kinerja canggih di lebih dari 1,600 bahasa, dengan tingkat kesalahan karakter di bawah 10 untuk 78% di antaranya, dan memperkenalkan metode yang lebih fleksibel untuk menambahkan bahasa baru.
Berbeda dengan sistem tradisional yang membutuhkan penyempurnaan oleh para ahli, ASR Omnilingual dapat menggabungkan bahasa yang sebelumnya tidak didukung hanya dengan beberapa contoh audio-teks berpasangan, sehingga memungkinkan transkripsi tanpa data ekstensif, keahlian khusus, atau komputasi canggih. Meskipun hasil zero-shot belum dapat menyamai sistem yang terlatih sepenuhnya, metode ini menyediakan cara yang skalabel untuk menghadirkan bahasa-bahasa yang kurang terlayani ke dalam ekosistem digital.
Meta AI Akan Memajukan Pengenalan Ucapan dengan Rangkaian ASR Omnilingual dan Korpus
Divisi riset telah merilis serangkaian model dan set data komprehensif yang dirancang untuk memajukan teknologi ucapan untuk bahasa apa pun. Berdasarkan riset FAIR sebelumnya, Omnilingual ASR mencakup dua varian dekoder, mulai dari model 300M ringan untuk perangkat berdaya rendah hingga model 7B yang menawarkan akurasi tinggi di berbagai aplikasi. Model fondasi ucapan wav2vec 2.0 yang serbaguna juga tersedia dalam berbagai ukuran, memungkinkan berbagai tugas terkait ucapan di luar ASR. Semua model disediakan di bawah lisensi Apache 2.0, dan set data tersedia di bawah CC-BY, yang memungkinkan para peneliti, pengembang, dan advokat bahasa untuk mengadaptasi dan memperluas solusi ucapan menggunakan kerangka kerja fairseq2 sumber terbuka FAIR dalam ekosistem PyTorch.
ASR Omnilingual dilatih pada salah satu korpus ASR terbesar dan paling beragam secara linguistik yang pernah disusun, menggabungkan kumpulan data publik dengan rekaman yang bersumber dari komunitas. Untuk mendukung bahasa dengan kehadiran digital terbatas, Meta AI Bermitra dengan organisasi lokal untuk merekrut dan memberikan kompensasi kepada penutur asli di daerah terpencil atau kurang terdokumentasi, menciptakan Omnilingual ASR Corpus, set data ASR spontan dengan sumber daya sangat rendah terbesar hingga saat ini. Kolaborasi tambahan melalui Program Mitra Teknologi Bahasa mempertemukan para ahli bahasa, peneliti, dan komunitas bahasa di seluruh dunia, termasuk kemitraan dengan Common Voice dari Mozilla Foundation dan Lanfrica/NaijaVoices. Upaya ini memberikan wawasan linguistik dan konteks budaya yang mendalam, memastikan teknologi ini memenuhi kebutuhan lokal sekaligus memberdayakan beragam komunitas bahasa di seluruh dunia.
Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
Kamu mungkin juga menyukai
Prospek harga Chainlink (LINK) saat DTCC mencantumkan ETF Chainlink Bitwise

Penipuan phishing berbasis AI dan eksploitasi kripto tersembunyi mengguncang keamanan Web3

Harga Dogecoin bertahan di atas $0,17 karena bulls eye breakout menuju $0,20; Periksa Prakiraan

Bitcoin (BTC) berjuang melawan hambatan makro meskipun arus masuk ETF membaik

