Bitget App
Trading Inteligente
Comprar criptoMercadosTradingFuturosEarnWeb3CentroMás
Trading
Spot
Compra y vende cripto con facilidad
Margen
Aumenta tu capital y maximiza tus fondos
Onchain
Aprovechar el mundo on-chain sin esfuerzo
Convert y trade en bloque
Convierte cripto con un solo clic y sin comisiones
Explorar
Launchhub
Obtén ventajas desde el principio y empieza a ganar
Copiar
Copia al trader elite con un solo clic
Bots
Bot de trading con IA sencillo, rápido y confiable
Trading
Futuros USDT-M
Tradea futuros liquidados en USDT
Futuros USDC-M
Futuros liquidados en USDC
Futuros Coin-M
Tradea futuros liquidados en cripto
Explorar
Guía de Futuros
Un recorrido de principiante a experto en el trading de futuros
Promociones de futuros
Gana grandes recompensas
Resumen
Una variedad de productos para incrementar tus activos
Simple Earn
Deposita y retira en cualquier momento para obtener retornos flexibles sin riesgo
On-chain Earn
Obtén ganancias diarias sin arriesgar tu capital
Earn estructurado
Innovación financiera sólida para sortear las oscilaciones del mercado
VIP y Gestión Patrimonial
Aumenta tu patrimonio con nuestro equipo de primer
Préstamos
Préstamos flexibles con alta seguridad de fondos
El cuello de botella de mil millones de dólares de la IA: la clave está en la calidad de los datos, no en el modelo | Opinión

El cuello de botella de mil millones de dólares de la IA: la clave está en la calidad de los datos, no en el modelo | Opinión

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Mostrar el original
Por:crypto.news

La inteligencia artificial podría ser la próxima industria de un billón de dólares, pero se está acercando silenciosamente a un gran cuello de botella. Mientras todos compiten por construir modelos más grandes y potentes, un problema inminente está siendo mayormente ignorado: podríamos quedarnos sin datos de entrenamiento utilizables en tan solo unos años.

Resumen
  • La IA se está quedando sin combustible: los conjuntos de datos de entrenamiento han estado creciendo 3,7 veces al año, y podríamos agotar el suministro mundial de datos públicos de calidad entre 2026 y 2032.
  • El mercado de etiquetado está explotando, pasando de $3.7 mil millones (2024) a $17.1 mil millones (2030), mientras que el acceso a datos humanos del mundo real se reduce tras jardines amurallados y regulaciones.
  • Los datos sintéticos no son suficientes: los bucles de retroalimentación y la falta de matices del mundo real los convierten en un sustituto riesgoso para los insumos desordenados generados por humanos.
  • El poder está cambiando hacia los poseedores de datos: con la comoditización de los modelos, el verdadero diferenciador será quién posee y controla conjuntos de datos únicos y de alta calidad.

Según EPOCH AI, el tamaño de los conjuntos de datos de entrenamiento para grandes modelos de lenguaje ha estado creciendo a una tasa de aproximadamente 3,7 veces anualmente desde 2010. A ese ritmo, podríamos agotar el suministro mundial de datos públicos de alta calidad en algún momento entre 2026 y 2032.

Incluso antes de llegar a ese límite, el costo de adquirir y curar datos etiquetados ya se está disparando. El mercado de recolección y etiquetado de datos fue valorado en $3.77 mil millones en 2024 y se proyecta que se dispare a $17.10 mil millones para 2030.

También te puede interesar: El futuro depende de la IA que construyamos: centralizada vs descentralizada | Opinión

Ese tipo de crecimiento explosivo sugiere una oportunidad clara, pero también un claro cuello de botella. Los modelos de IA solo son tan buenos como los datos con los que se entrenan. Sin un flujo escalable de conjuntos de datos frescos, diversos y sin sesgos, el rendimiento de estos modelos se estancará y su utilidad comenzará a degradarse.

Así que la verdadera pregunta no es quién construye el próximo gran modelo de IA. Es quién posee los datos y de dónde provendrán.

El problema de los datos en la IA es más grande de lo que parece

Durante la última década, la innovación en IA ha dependido en gran medida de conjuntos de datos públicos: Wikipedia, Common Crawl, Reddit, repositorios de código open-source y más. Pero ese pozo se está secando rápidamente. A medida que las empresas restringen el acceso a sus datos y los problemas de derechos de autor se acumulan, las firmas de IA se ven obligadas a replantear su enfoque. Los gobiernos también están introduciendo regulaciones para limitar el scraping de datos, y la opinión pública está cambiando en contra de la idea de entrenar modelos de miles de millones de dólares con contenido generado por usuarios sin compensación.

Los datos sintéticos son una solución propuesta, pero es un sustituto riesgoso. Los modelos entrenados con datos generados por modelos pueden llevar a bucles de retroalimentación, alucinaciones y un rendimiento degradado con el tiempo. También está el tema de la calidad: los datos sintéticos a menudo carecen del desorden y los matices de los insumos del mundo real, que es exactamente lo que los sistemas de IA necesitan para funcionar bien en escenarios prácticos.

Eso deja a los datos generados por humanos en el mundo real como el estándar de oro, y cada vez es más difícil de conseguir. La mayoría de las grandes plataformas que recopilan datos humanos, como Meta, Google y X (anteriormente Twitter), son jardines amurallados. El acceso está restringido, monetizado o directamente prohibido. Peor aún, sus conjuntos de datos suelen estar sesgados hacia regiones, idiomas y demografías específicas, lo que lleva a modelos sesgados que fallan en casos de uso diversos del mundo real.

En resumen, la industria de la IA está a punto de chocar con una realidad que ha ignorado durante mucho tiempo: construir un LLM masivo es solo la mitad de la batalla. Alimentarlo es la otra mitad.

Por qué esto realmente importa

Hay dos partes en la cadena de valor de la IA: la creación de modelos y la adquisición de datos. Durante los últimos cinco años, casi todo el capital y la atención se han volcado en la creación de modelos. Pero a medida que llevamos los límites del tamaño de los modelos al máximo, finalmente la atención se está desplazando hacia la otra mitad de la ecuación.

Si los modelos se están convirtiendo en commodities, con alternativas open-source, versiones de menor tamaño y diseños eficientes en hardware, entonces el verdadero diferenciador pasa a ser los datos. Los conjuntos de datos únicos y de alta calidad serán el combustible que defina qué modelos superan a los demás.

También introducen nuevas formas de creación de valor. Los contribuyentes de datos se convierten en partes interesadas. Los desarrolladores tienen acceso a datos más frescos y dinámicos. Y las empresas pueden entrenar modelos que estén mejor alineados con sus audiencias objetivo.

El futuro de la IA pertenece a los proveedores de datos

Estamos entrando en una nueva era de la IA, una en la que quien controle los datos tendrá el verdadero poder. A medida que la competencia por entrenar modelos mejores e inteligentes se intensifica, la mayor limitación no será la computación. Será la obtención de datos que sean reales, útiles y legales de usar.

La pregunta ahora no es si la IA escalará, sino quién alimentará ese crecimiento. No serán solo los científicos de datos. Serán los administradores de datos, agregadores, contribuyentes y las plataformas que los reúnan. Ahí es donde está la próxima frontera.

Así que la próxima vez que escuches sobre una nueva frontera en inteligencia artificial, no preguntes quién construyó el modelo. Preguntá quién lo entrenó y de dónde provinieron los datos. Porque al final, el futuro de la IA no se trata solo de la arquitectura. Se trata del input.

Leer más: El almacenamiento, no el silicio, desencadenará el próximo gran avance de la IA | Opinión

Max Li

Max Li es el fundador y CEO de OORT, la nube de datos para IA descentralizada. El Dr. Li es profesor, ingeniero experimentado e inventor con más de 200 patentes. Su experiencia incluye trabajo en sistemas 4G LTE y 5G con Qualcomm Research y contribuciones académicas en teoría de la información, aprendizaje automático y tecnología blockchain. Es autor del libro titulado “Reinforcement Learning for Cyber-physical Systems”, publicado por Taylor & Francis CRC Press.

0

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.
APR de hasta 12%. Gana más airdrop bloqueando más.
¡Bloquea ahora!

También te puede gustar

Las batallas de productos de criptomonedas más emocionantes de 2025: ¿quién se reirá al final?

Guerras de las plataformas de lanzamiento de memes: pasado, presente y futuro

BlockBeats2025/09/09 04:15
Las batallas de productos de criptomonedas más emocionantes de 2025: ¿quién se reirá al final?

Cuando el oro entra en "carrera": cómo XAUm convierte el oro en un activo productivo

Aseguremos realmente el RWA de oro en la blockchain, no solo en línea.

BlockBeats2025/09/09 04:14
Cuando el oro entra en "carrera": cómo XAUm convierte el oro en un activo productivo

¿Te unes si no puedes vencerlos? Ejecutivo de Nasdaq revela por qué eligieron adoptar la tokenización

Las acciones de empresas líderes como Apple y Microsoft podrán ser negociadas y liquidadas en el futuro en Nasdaq en forma de tokens blockchain.

BlockBeats2025/09/09 04:14
¿Te unes si no puedes vencerlos? Ejecutivo de Nasdaq revela por qué eligieron adoptar la tokenización

Nueva narrativa de ingresos de MegaETH: Presentación de la stablecoin nativa USDm en asociación con Ethena

USDm busca estandarizar el mecanismo de incentivos de la red, permitiendo que MegaETH opere el secuenciador a costo, ofreciendo a los usuarios y desarrolladores las tarifas de transacción más bajas posibles.

BlockBeats2025/09/09 04:13
Nueva narrativa de ingresos de MegaETH: Presentación de la stablecoin nativa USDm en asociación con Ethena