Bitget App
Trade smarter
Acheter des cryptosMarchésTradingFuturesEarnWeb3CommunautéPlus
Trading
Spot
Achat et vente de cryptos
Marge
Amplifiez et maximisez l'efficacité de vos fonds
Onchain
Tradez Onchain sans aller on-chain
Convert & Block Trade
Trades volumineux – Convertissez des cryptos en un clic et sans frais
Explorer
Launchhub
Prenez l'avantage dès le début et commencez à gagner
Copier
Copiez des traders experts en un clic
Bots
Bots de trading IA simples, rapides et fiables
Trading
Futures USDT-M
Futures réglés en USDT
Futures USDC-M
Futures réglés en USDC
Futures Coin-M
Futures réglés en cryptomonnaies
Explorer
Guide des Futures
Le parcours de trading de Futures, du débutant à l'expert
Événements Futures
Profitez de généreuses récompenses
Bitget Earn
Une variété de produits pour faire fructifier vos actifs
Simple Earn
Déposez et retirez à tout moment, rendements flexibles sans risque
On-chain Earn
Réalisez des profits quotidiens sans risquer votre capital
Structured Earn
Une innovation financière solide pour gérer les fluctuations du marché
VIP et Gestion de patrimoine
Des services premium pour une gestion de patrimoine intelligente
Prêt Crypto
Emprunts flexibles avec un haut niveau de sécurité des fonds
Le goulot d'étranglement à un milliard de dollars de l’IA : la qualité des données, pas le modèle | Opinion

Le goulot d'étranglement à un milliard de dollars de l’IA : la qualité des données, pas le modèle | Opinion

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Afficher le texte d'origine
Par:crypto.news

L’IA pourrait bien être la prochaine industrie à mille milliards de dollars, mais elle approche discrètement d’un énorme goulot d’étranglement. Alors que tout le monde s’empresse de construire des modèles toujours plus grands et puissants, un problème imminent reste largement ignoré : nous pourrions manquer de données d’entraînement utilisables d’ici seulement quelques années.

Résumé
  • L’IA manque de carburant : les ensembles de données d’entraînement ont crû 3,7 fois par an, et nous pourrions épuiser l’offre mondiale de données publiques de qualité entre 2026 et 2032.
  • Le marché de l’étiquetage explose, passant de 3,7 milliards de dollars (2024) à 17,1 milliards de dollars (2030), tandis que l’accès aux données humaines réelles se réduit derrière des jardins clos et des réglementations.
  • Les données synthétiques ne suffisent pas : les boucles de rétroaction et le manque de nuances réelles en font un substitut risqué face à des entrées désordonnées générées par l’humain.
  • Le pouvoir se déplace vers les détenteurs de données : avec la banalisation des modèles, le véritable facteur différenciant sera la propriété et le contrôle d’ensembles de données uniques et de haute qualité.

Selon EPOCH AI, la taille des ensembles de données d’entraînement pour les grands modèles de langage a augmenté à un rythme d’environ 3,7 fois par an depuis 2010. À ce rythme, nous pourrions épuiser l’offre mondiale de données publiques de haute qualité entre 2026 et 2032.

Avant même d’atteindre ce mur, le coût d’acquisition et de curation des données étiquetées explose déjà. Le marché de la collecte et de l’étiquetage des données était évalué à 3,77 milliards de dollars en 2024 et devrait atteindre 17,10 milliards de dollars d’ici 2030.

Vous aimerez aussi : L’avenir dépend de l’IA que nous construisons : centralisée vs décentralisée | Opinion

Une telle croissance explosive suggère une opportunité claire, mais aussi un point d’étranglement évident. Les modèles d’IA ne valent que par la qualité des données sur lesquelles ils sont entraînés. Sans pipeline évolutif de jeux de données frais, diversifiés et non biaisés, la performance de ces modèles plafonnera, et leur utilité commencera à décliner.

La vraie question n’est donc pas de savoir qui construira le prochain grand modèle d’IA. C’est de savoir qui possède les données et d’où elles proviendront.

Le problème de données de l’IA est plus grave qu’il n’y paraît

Au cours de la dernière décennie, l’innovation en IA s’est fortement appuyée sur des ensembles de données publics : Wikipedia, Common Crawl, Reddit, des dépôts de code open source, et plus encore. Mais cette source s’assèche rapidement. Alors que les entreprises restreignent l’accès à leurs données et que les problèmes de droits d’auteur s’accumulent, les sociétés d’IA sont contraintes de repenser leur approche. Les gouvernements introduisent également des réglementations pour limiter le scraping de données, et l’opinion publique évolue contre l’idée d’entraîner des modèles valant des milliards de dollars sur du contenu généré par les utilisateurs sans compensation.

Les données synthétiques sont une solution proposée, mais elles constituent un substitut risqué. Les modèles entraînés sur des données générées par d’autres modèles peuvent entraîner des boucles de rétroaction, des hallucinations et une dégradation des performances au fil du temps. Il y a aussi la question de la qualité : les données synthétiques manquent souvent du désordre et des nuances du monde réel, ce dont les systèmes d’IA ont justement besoin pour bien fonctionner dans des scénarios pratiques.

Il ne reste donc que les données réelles, générées par l’humain, comme référence absolue, et elles deviennent de plus en plus difficiles à obtenir. La plupart des grandes plateformes qui collectent des données humaines, comme Meta, Google et X (anciennement Twitter), sont des jardins clos. L’accès y est restreint, monétisé, voire totalement interdit. Pire encore, leurs ensembles de données sont souvent biaisés vers certaines régions, langues et démographies, ce qui conduit à des modèles biaisés qui échouent dans des cas d’usage réels et diversifiés.

En résumé, l’industrie de l’IA est sur le point de se heurter à une réalité longtemps ignorée : construire un LLM massif n’est que la moitié du défi. Le nourrir en est l’autre moitié.

Pourquoi cela compte vraiment

La chaîne de valeur de l’IA comporte deux volets : la création de modèles et l’acquisition de données. Au cours des cinq dernières années, presque tout le capital et l’engouement se sont concentrés sur la création de modèles. Mais à mesure que nous repoussons les limites de la taille des modèles, l’attention se porte enfin sur l’autre moitié de l’équation.

Si les modèles deviennent banalisés, avec des alternatives open source, des versions plus compactes et des conceptions plus efficaces en matériel, alors le véritable facteur différenciant devient la donnée. Les ensembles de données uniques et de haute qualité seront le carburant qui déterminera quels modèles surpasseront les autres.

Ils introduisent également de nouvelles formes de création de valeur. Les contributeurs de données deviennent des parties prenantes. Les constructeurs ont accès à des données plus fraîches et dynamiques. Et les entreprises peuvent entraîner des modèles mieux alignés sur leurs publics cibles.

L’avenir de l’IA appartient aux fournisseurs de données

Nous entrons dans une nouvelle ère de l’IA, où celui qui contrôle les données détient le véritable pouvoir. À mesure que la compétition pour entraîner des modèles meilleurs et plus intelligents s’intensifie, la plus grande contrainte ne sera pas la puissance de calcul. Ce sera la capacité à obtenir des données réelles, utiles et légales à utiliser.

La question n’est plus de savoir si l’IA va passer à l’échelle, mais qui alimentera cette montée en puissance. Il ne s’agira pas seulement de data scientists. Il s’agira de gestionnaires de données, d’agrégateurs, de contributeurs et des plateformes qui les réunissent. C’est là que se trouve la prochaine frontière.

Alors, la prochaine fois que vous entendrez parler d’une nouvelle frontière en intelligence artificielle, ne demandez pas qui a construit le modèle. Demandez qui l’a entraîné, et d’où proviennent les données. Car au final, l’avenir de l’IA ne dépend pas seulement de l’architecture. Il dépend de l’entrée.

Lire aussi : Le stockage, et non le silicium, déclenchera la prochaine percée de l’IA | Opinion

Max Li

Max Li est le fondateur et PDG d’OORT, le cloud de données pour l’IA décentralisée. Dr. Li est professeur, ingénieur expérimenté et inventeur avec plus de 200 brevets. Son parcours inclut des travaux sur les systèmes 4G LTE et 5G avec Qualcomm Research ainsi que des contributions académiques à la théorie de l’information, l’apprentissage automatique et la technologie blockchain. Il est l’auteur du livre intitulé “Reinforcement Learning for Cyber-physical Systems,” publié par Taylor & Francis CRC Press.

0

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !

Vous pourriez également aimer

Tether dévoile le stablecoin USAT pour le marché américain sous la direction de l'ancien responsable crypto de la Maison Blanche, Bo Hines

Tether lance USAT, un nouveau stablecoin conforme aux réglementations américaines sous la direction de Bo Hines, conçu pour renforcer la position des États-Unis dans l’économie numérique mondiale.

Coinspeaker2025/09/13 09:24