En la reciente cumbre AI Action Summit celebrada en París, Yann LeCun, una figura clave en el desarrollo de la inteligencia artificial y pionero en redes neuronales, lanzó una crítica contundente hacia los modelos de lenguaje a gran escala (LLMs), como los que dominan hoy el panorama de la IA. 

Según LeCun, estos modelos, aunque impresionantes en tareas lingüísticas, no poseen las capacidades necesarias para alcanzar una inteligencia comparable a la humana

En concreto, destacó cuatro deficiencias principales: no comprenden el mundo físico, carecen de memoria persistente, no razonan de forma efectiva y son incapaces de planificar acciones complejas de manera jerárquica. 

Para superar estas limitaciones, propone el desarrollo de World Models, sistemas que simulen el mundo real de forma más completa.

Estas declaraciones no solo reflejan una visión crítica sobre el estado actual de la IA, sino que también marcan un rumbo hacia un nuevo paradigma en la investigación. Pero, ¿qué lleva a LeCun a afirmar esto?

Limitaciones de los Modelos de Lenguaje a Gran Escala (LLMs)

Los LLMs, como GPT-4o de OpenAI o Llama 4 de Meta, son modelos de IA basados en redes neuronales, especialmente en la arquitectura transformer (esa es la “T” en GPT). 

Entrenados con enormes cantidades de texto, estos sistemas destacan por su capacidad para generar texto coherente, responder preguntas o traducir idiomas. Sin embargo, su dependencia exclusiva del lenguaje escrito revela serias limitaciones.

Comprensión del mundo físico

Aunque un LLM puede describir que “un objeto cae por la gravedad”, carece de experiencia sensorial directa. No percibe la textura, el peso o la resistencia del aire; simplemente asocia palabras y patrones estadísticos. Esta carencia lo aleja de la intuición básica que incluso un animal sin entrenamiento formal aplica al interactuar con su entorno.

Memoria persistente

Cada solicitud a un LLM se trata, en esencia, como una interacción aislada. Aunque pueden mantener el contexto durante una misma sesión, no incorporan aprendizajes de conversaciones anteriores de forma continua. Un humano, en cambio, va construyendo un acervo de experiencias que guía su comportamiento y le permite adaptarse a largo plazo.

Razonamiento limitado

Los LLMs parten de correlaciones aprendidas para generar respuestas “lógicas”, pero no realizan un proceso deductivo auténtico ni entienden las relaciones de causa y efecto. Pueden asociar el sol con el amanecer porque han visto el patrón en miles de textos, pero no razonan por qué ocurre, ni extraen principios universales que trasciendan los ejemplos vistos.

Incapacidad para planificar

Frente a tareas complejas (como planificar un viaje, diseñar una estrategia de negocio o coordinar acciones de un robot), los LLMs no descomponen problemas en pasos jerarquizados. Su aproximación es esencialmente reactiva: responden a indicaciones inmediatas sin trazar un plan global o anticipar consecuencias a medio y largo plazo.

Estas limitaciones reflejan la paradoja de Moravec, que destaca lo fácil que resulta para la IA actual abordar tareas abstractas (lenguaje) y lo difícil que encuentra las funciones perceptivas y motoras que los humanos y animales realizan de forma casi automática.

Los World Models: Una Alternativa Prometedora

Frente a las limitaciones de los LLMs, LeCun aboga por los World Models, sistemas diseñados para crear representaciones internas del mundo real. 

Los World Models son sistemas diseñados para reconstruir internamente la dinámica del entorno real. En lugar de limitarse al lenguaje, integran datos heterogéneos (imágenes, audio, vídeo, sensores físicos) para aprender las leyes que rigen el mundo: gravedad, fricción, causalidad y transformaciones espaciales.

Ventajas Clave

  • Comprensión física: Al procesar información sensorial directa, un World Model puede predecir cómo rodará una pelota, cómo se deforma un objeto al chocar o cómo fluye un líquido, simulando leyes físicas en un “laboratorio virtual”.
  • Memoria a largo plazo: Mantienen un estado interno que evoluciona con cada interacción, permitiendo un aprendizaje continuo y el refinamiento de modelos según nuevas experiencias.
  • Razonamiento causal: Al construir representaciones de causa y efecto, no se contentan con correlaciones; pueden explicar por qué un cambio en el entorno produce un resultado determinado.
  • Planificación estratégica: Esta capacidad de simulación interna les permite descomponer tareas complejas en subtareas y evaluar distintas rutas de acción, crucial en robótica, automatización y vehículos autónomos.

Un ejemplo destacado es Cosmos de NVIDIA, que utiliza World Models para crear escenarios físicos variados en los que robots y vehículos autónomos ensayan maniobras, anticipan obstáculos y aprenden a reaccionar a nuevas situaciones.

¿Cómo se compara los LLMs y los World Models?

Para clarificar las diferencias, los LLMs dependen exclusivamente de texto y se centran en patrones lingüísticos, mientras que los World Models integran datos sensoriales para modelar el mundo físico. 

Los primeros carecen de memoria persistente y razonamiento profundo, limitándose a tareas como chatbots o traducciones. En cambio, los segundos ofrecen una base sólida para sistemas que necesitan interactuar con el entorno, como robots o simuladores. 

Esta distinción subraya por qué LeCun ve en los World Models un avance necesario.

Desafíos y futuro de los World Models

Aunque prometedores, los World Models enfrentan retos. Requieren grandes volúmenes de datos sensoriales y una capacidad computacional significativa, además de garantizar que puedan generalizarse a situaciones nuevas. 

Algunos expertos cuestionan si este enfoque es realmente innovador, pero los avances en hardware y datos lo hacen viable hoy en día. Proyectos como V-JEPA de Meta o los simuladores de DeepMind muestran que esta dirección está ganando terreno.

Las palabras de Yann LeCun en París plasman un momento de inflexión en la IA: los LLMs, si bien extraordinarios en el procesamiento del lenguaje, quedan cortos cuando se trata de emular una inteligencia completa, con sentido físico, memoria duradera, razonamiento profundo y planificación estratégica. 

Los World Models se perfilan como la vía para superar estas barreras, ofreciendo simulaciones ricas que conecten la teoría estadística con la experiencia empírica.