En los últimos años, la inteligencia artificial (IA) ha impresionado con su capacidad para generar textos, imágenes e incluso código de manera autónoma. Sin embargo, este avance se enfrenta a un desafío fundamental: la creciente escasez de datos reales para entrenar estos modelos.

Hemos desarrollado el rol de este problema en el colapso de los modelos, pero en los primeros días de 2025, figuras como Elon Musk, propietario de xAI, y otros expertos han reconocido el agotamiento de los datos del mundo real necesarios para el aprendizaje y la mejora de la IA.

¿Qué significa esto para el futuro de la IA? ¿Estamos ante el final de una era o ante el comienzo de una nueva etapa?»

La crisis de los datos reales

Durante una conversación transmitida en X (anteriormente Twitter), Elon Musk afirmó que se ha «agotado básicamente la suma acumulada del conocimiento humano» para el entrenamiento de las IA.

Esta declaración se alinea con las conclusiones de un estudio de la Iniciativa de Proveniencia de Datos del MIT, que advierte sobre la rápida disminución de datos disponibles en la web para este fin.

El estudio revela que, en los últimos años, se ha restringido el acceso al 5% de los datos de los conjuntos de datos más utilizados en IA, y algunos sitios web han bloqueado el acceso a sus contenidos mediante el protocolo robots.txt.

Además, muchos editores han comenzado a monetizar su contenido o a bloquear a los rastreadores web utilizados por las empresas de IA.

Los datos son cada vez más valiosos

La Iniciativa de Proveniencia de Datos destaca una «crisis emergente en el consentimiento», ya que los propietarios de los datos se resisten a su uso sin compensación.

Plataformas como Reddit y StackOverflow han comenzado a cobrar por el acceso a sus datos, e incluso se han emprendido acciones legales, como la demanda de The New York Times contra OpenAI y Microsoft por el uso no autorizado de su contenido.

Esta crisis impacta profundamente a la industria. Para gigantes como OpenAI, Google y Meta, la escasez de datos de alta calidad podría frenar el desarrollo de sus modelos.

La limitación de datos web priva a las IA de la información necesaria para su aprendizaje continuo. El problema es aún más grave para pequeñas empresas de IA e investigadores académicos, que dependen de conjuntos de datos públicos y gratuitos.

Sin estos recursos, muchos proyectos se paralizarían, concentrando el acceso a la tecnología en las grandes corporaciones con capacidad para adquirir datos mediante acuerdos exclusivos o pagos.

Los datos sintéticos como solución

Ante esta escasez, Elon Musk y otros expertos proponen una solución: los datos sintéticos. Estos datos son generados por modelos de IA, ofreciendo una alternativa a la recolección de datos del mundo real.

Musk sugiere que «la única forma de complementar [los datos reales] es con datos sintéticos, donde la IA crea [los datos de entrenamiento]», permitiendo el «autoentrenamiento» de los modelos.

El uso de datos sintéticos, aunque no es nuevo, ha cobrado gran relevancia. Empresas como Microsoft, Meta, OpenAI y Anthropic ya los utilizan.

Gartner estima que actualmente 60% de los datos utilizados en proyectos de IA y análisis son generados sintéticamente. Ejemplos de esto son el modelo Phi-4 de Microsoft, los modelos Gemma de Google y los modelos Llama de Meta.

No es oro todo lo que reluce

Los datos sintéticos ofrecen ventajas como la reducción de costos de recolección y almacenamiento.

La startup de IA Writer, que desarrolló su modelo Palmyra X 004 casi exclusivamente con datos sintéticos, reportó un costo de desarrollo de 700.000 dólares, frente a los 4,6 millones necesarios para un modelo comparable de OpenAI.

Sin embargo, los datos sintéticos también presentan desafíos. Estudios sugieren que su uso excesivo puede llevar al «colapso del modelo», donde los sistemas se vuelven menos creativos y más sesgados, replicando las limitaciones de los datos originales.

Riesgos y desafíos futuros

El futuro de la IA dependerá del equilibrio entre datos reales y sintéticos. La dependencia excesiva de estos últimos podría estancar a los modelos, limitando la creatividad y aumentando la susceptibilidad a sesgos.

Además, podría exacerbar la brecha entre grandes empresas y actores más pequeños, concentrando el poder en quienes tienen recursos para generar grandes volúmenes de datos sintéticos de alta calidad.

Otro desafío crucial es la falta de un marco normativo claro sobre el uso de datos para entrenamiento de IA. La falta de consenso sobre el uso legítimo de datos web ha generado disputas legales y descontento entre los creadores de contenido.

Aún estamos a la espera de un sistema que permita a los propietarios controlar el uso de sus contenidos, diferenciando entre fines académicos/sin fines de lucro y fines comerciales.