Bitget App
Trade smarter
Acheter des cryptosMarchésTradingFuturesEarnCommunautéPlus
Meta AI présente une solution de reconnaissance vocale automatique omnilingue, faisant progresser la reconnaissance vocale automatique dans plus de 1

Meta AI présente une solution de reconnaissance vocale automatique omnilingue, faisant progresser la reconnaissance vocale automatique dans plus de 1

MPOSTMPOST2025/11/12 02:36
Par:MPOST

En bref Meta AI a lancé le système Omnilingual ASR, qui assure la reconnaissance vocale pour plus de 1 600 langues, et a publié des modèles open source ainsi qu'un corpus pour 350 langues sous-représentées.

Division de recherche de la société technologique Meta, spécialisée dans l'IA et la réalité augmentée, Méta IA a annoncé la sortie du système de reconnaissance vocale automatique (ASR) Meta Omnilingual. 

Cette suite de modèles assure la reconnaissance vocale automatique pour plus de 1 600 langues, offrant des performances de haute qualité à une échelle sans précédent. Par ailleurs, Meta AI met à disposition en open source Omnilingual wav2vec 2.0, un modèle de représentation vocale massivement multilingue et auto-supervisé, doté de 7 milliards de paramètres et conçu pour prendre en charge diverses tâches de traitement vocal.

En parallèle de ces outils, l'organisation publie également le corpus ASR omnilingue, une collection soigneusement sélectionnée de transcriptions vocales issues de 350 langues sous-représentées, développée en partenariat avec des collaborateurs du monde entier.

La reconnaissance vocale automatique a progressé ces dernières années, atteignant une précision quasi parfaite pour de nombreuses langues largement parlées. Cependant, son extension aux langues moins bien dotées en ressources reste un défi en raison des exigences élevées en matière de données et de calcul des architectures d'IA existantes. Le système Omnilingual ASR surmonte cette limitation en adaptant l'encodeur vocal wav2vec 2.0 à 7 milliards de paramètres, créant ainsi de riches représentations multilingues à partir de la parole brute non transcrite. Deux variantes de décodeur transforment ces représentations en jetons de caractères : l'une utilise la classification temporelle connexionniste (CTC) et l'autre une approche basée sur les transformateurs, similaire à celle employée dans les grands modèles de langage.

Cette approche ASR inspirée par LLM atteint des performances de pointe sur plus de 1 600 langues, avec des taux d'erreur de caractères inférieurs à 10 pour 78 % d'entre elles, et introduit une méthode plus flexible pour l'ajout de nouvelles langues. 

Contrairement aux systèmes traditionnels qui nécessitent un paramétrage précis par des experts, la reconnaissance automatique de la parole omnilingue (Omnilingual ASR) peut intégrer une langue auparavant non prise en charge à partir de quelques exemples audio-texte seulement, permettant ainsi la transcription sans avoir besoin de données volumineuses, d'expertise spécialisée ni de puissance de calcul importante. Bien que les résultats obtenus avec un seul exemple ne soient pas encore aussi bons que ceux des systèmes entièrement entraînés, cette méthode offre une solution évolutive pour intégrer les langues sous-représentées à l'écosystème numérique.

Meta AI pour faire progresser la reconnaissance vocale grâce à une suite ASR omnilingue et un corpus 

Le département de recherche de FAIR a publié une suite complète de modèles et un jeu de données conçus pour faire progresser la technologie vocale dans toutes les langues. S'appuyant sur les travaux antérieurs de FAIR, Omnilingual ASR inclut deux variantes de décodeur : des modèles légers de 300 Mo pour les appareils à faible consommation et des modèles de 7 Mo offrant une haute précision pour diverses applications. Le modèle de base vocal wav2vec 2.0, polyvalent, est également disponible en plusieurs tailles, permettant ainsi de réaliser un large éventail de tâches liées à la parole, au-delà de la simple reconnaissance automatique de la parole (ASR). Tous les modèles sont distribués sous licence Apache 2.0 et le jeu de données est disponible sous licence CC-BY, permettant aux chercheurs, aux développeurs et aux défenseurs des langues d'adapter et d'enrichir les solutions vocales grâce au framework open source fairseq2 de FAIR, intégré à l'écosystème PyTorch.

Le système de reconnaissance automatique de la parole omnilingue (ASR) est entraîné sur l'un des corpus ASR les plus vastes et les plus diversifiés linguistiquement jamais constitués, combinant des ensembles de données accessibles au public et des enregistrements issus de la communauté. Afin de prendre en charge les langues ayant une présence numérique limitée, Méta IA En partenariat avec des organisations locales, nous avons recruté et rémunéré des locuteurs natifs dans des régions isolées ou sous-représentées, créant ainsi le corpus de reconnaissance automatique de la parole omnilingue (Omnilingual ASR Corpus), le plus vaste ensemble de données de reconnaissance automatique de la parole spontanée à très faibles ressources jamais constitué. D'autres collaborations, menées dans le cadre du Programme de partenariat en technologies linguistiques, ont réuni linguistes, chercheurs et communautés linguistiques du monde entier, notamment grâce à des partenariats avec Common Voice de la Fondation Mozilla et Lanfrica/NaijaVoices. Ces efforts ont permis d'acquérir une connaissance linguistique approfondie et un contexte culturel précieux, garantissant ainsi que la technologie réponde aux besoins locaux tout en contribuant à l'autonomisation des diverses communautés linguistiques à l'échelle mondiale.

0

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !

Vous pourriez également aimer

L'avocat spécialisé dans les cryptomonnaies, John Deaton, se lance dans la course au Sénat de 2026.

Partager le lien:Dans cet article : John Deaton se présente aux élections sénatoriales américaines du Massachusetts en 2026 sous l'étiquette républicaine. Sa campagne est axée sur la responsabilité gouvernementale, l'équité économique et les services publics, plutôt que sur les cryptomonnaies. Il accepte toujours les dons en cryptomonnaies et pourrait obtenir le soutien de grands comités d'action politique (PAC) du secteur des cryptomonnaies.

Cryptopolitan2025/11/12 07:21