La inteligencia artificial (IA) continúa avanzando a un ritmo acelerado, pero aún enfrentamos importantes desafíos para desarrollar sistemas con capacidades similares a las humanas.

Uno de los conceptos más prometedores para superar estas limitaciones son los simuladores de mundo (o «world models«, como se les conoce en inglés).

A continuación, exploraremos qué son estos world models o simuladores de mundo, por qué son tan complejos de desarrollar y cómo podrían transformar la tecnología y nuestras vidas.

¿Qué son los simuladores de mundo?

Un simulador de mundo es un modelo de IA diseñado para crear una representación interna de su entorno físico y social.

A diferencia de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), que funcionan prediciendo la siguiente palabra en una secuencia, los simuladores de mundo intentan imitar cómo los humanos perciben, planifican y actúan en el mundo real.

Estos modelos son capaces de simular entornos, construyendo una representación virtual del mundo y previendo cómo se desarrollarán los eventos según una serie de reglas físicas.

Además, pueden planificar acciones, generando estrategias basadas en su comprensión del entorno y en objetivos específicos. Esto les permite adaptarse a la incertidumbre, calculando múltiples posibles resultados y eligiendo el curso de acción más adecuado.

En esencia, un simulador de mundo funciona como nosotros

Para entender mejor lo que es un world model, un ejemplo práctico. Imagina un sistema de inteligencia artificial encargado de gestionar un almacén de productos. Su objetivo es optimizar la eficiencia del almacén y mantenerlo organizado.

En lugar de simplemente reaccionar a cada evento que ocurre, este sistema utiliza un simulador de mundo para prever y planificar sus acciones.

El simulador de mundo tiene una representación interna del almacén, incluyendo la disposición de las estanterías, el stock de productos y las rutas de los robots que transportan mercancías.

Un día, el sistema recibe la notificación de que un lote grande de productos va a llegar. En lugar de esperar a que los productos lleguen para decidir dónde ubicarlos, el simulador de mundo evalúa la situación de antemano.

Creación del plan

El simulador «imagina» diferentes escenarios de cómo se podrían distribuir los productos para optimizar el espacio y facilitar su acceso futuro. Considera factores como la frecuencia de salida de los productos, su tamaño y peso, y las rutas de los robots.

Ejecución simulada

Antes de que los productos lleguen, el simulador realiza una serie de pruebas internas, simulando cómo se moverían los robots para organizar los productos. Ajusta las rutas y las ubicaciones en su modelo virtual para evitar congestiones y garantizar una disposición eficiente.

Acciones planificadas

Con base en su simulación, el sistema genera una secuencia de acciones: designa espacios específicos para los productos entrantes, ajusta las rutas de los robots y organiza las tareas de los trabajadores humanos para recibir el lote de manera ordenada.

Adaptación y optimización

Una vez que los productos llegan, el sistema supervisa la ejecución del plan en tiempo real y realiza ajustes según sea necesario. Si surge algún imprevisto, como un cambio en el número de productos o en su tamaño, el simulador de mundo adapta el plan rápidamente para mantener la eficiencia.

Este enfoque permite no solo una gestión más eficaz del almacén, sino también una mayor capacidad para anticipar problemas y optimizar recursos, demostrando el poder de los simuladores de mundo en la planificación y previsión avanzada.

Los retos de crear World Models

Aunque la idea de los simuladores de mundo suene como algo del presente, la realidad es que aún estamos lejos de lograr sistemas completamente funcionales. Crear un simulador de mundo es extremadamente complejo debido a varios factores:

Necesidad de percepción tridimensional

Los sistemas actuales, como los modelos de lenguaje grandes (LLMs), trabajan con datos unidimensionales (texto) o bidimensionales (imágenes).

Simular el mundo físico requiere modelar relaciones espaciales, temporales y causales en tres dimensiones, lo cual es un salto significativo en términos de capacidad computacional y algoritmos.

Comprensión de causa y efecto

Para prever el impacto de sus acciones, un simulador de mundo debe deducir cómo los objetos y agentes interactúan entre sí. Esto implica aprender reglas que no siempre están presentes en los datos de entrenamiento.

Capacidad de razonamiento y planificación

Estos modelos deben ser capaces de tomar decisiones tanto a corto como a largo plazo. Por ejemplo, planificar cómo mover objetos para limpiar una habitación o cómo diseñar un puente seguro.

Eficiencia computacional

Construir y operar simuladores de mundo requiere un poder de procesamiento mucho mayor que el de los LLMs, además de enormes cantidades de datos y tiempo para entrenarlos.

Desarrollos actuales en simuladores de mundo

Estamos aún en las primeras etapas del largo camino para que las máquinas puedan comprender nuestro mundo de la forma en que lo hacemos los humanos.

Actualmente, los desarrollos se centran en dotarlas de una conciencia espacial, lo que ha llevado al avance de modelos multimodales y capacidades avanzadas de generación de video. Algunos de los desarrollos más destacados incluyen:

Sora de OpenAI

Sora es un modelo de generación de video que ha resaltado por su capacidad para crear representaciones visuales realistas y detalladas. Aunque largamente prometido, OpenAI aún no lo ha lanzado públicamente, aunque sí ha revelado algunas de sus capacidades.

Sora utiliza técnicas avanzadas de inteligencia artificial para simular escenarios complejos y generar videos de alta calidad.

Esto tiene aplicaciones potenciales en la creación de contenido para cine y videojuegos, así como en la simulación de situaciones de entrenamiento para profesionales de diversas industrias.

DeepMind Genie 2

DeepMind ha desarrollado Genie 2, un modelo que combina capacidades de procesamiento de lenguaje natural y visión por computadora para crear simulaciones interactivas.

Genie 2 puede entender y generar descripciones de escenas visuales, lo que lo hace útil para aplicaciones en robótica, navegación autónoma y diseño arquitectónico. Así es capaz de navegar por sus “mundos” como si se tratara de un videojuego.

Por ejemplo, un robot equipado con Genie 2 puede navegar por un entorno desconocido, identificar obstáculos y planificar rutas de manera eficiente.

Oasis de Etched y Decart

Oasis es un modelo de simulación de mundo interactivo y en tiempo real que ha sido desarrollado por el laboratorio de IA surgido de la colaboración de Etched y Decart.

A diferencia de otros modelos que generan video a partir de texto, Oasis genera video frame-by-frame a partir de entradas de teclado y ratón.

Esto permite a los usuarios interactuar con el mundo virtual en tiempo real, construyendo estructuras, rompiendo bloques y explorando el entorno. Actualmente se utiliza para crear mundos similares al juego Minecraft.

Un cambio de paradigma

Investigadores como Yann LeCun y Fei-Fei Li están liderando la investigación en este campo, desarrollando arquitecturas y paradigmas que podrían hacer de los simuladores de mundo una realidad en la próxima década

Los simuladores de mundo representan un cambio de paradigma en la inteligencia artificial, con el potencial de superar las limitaciones actuales y acercarnos a sistemas más inteligentes y autónomos.

Aunque todavía estamos lejos de alcanzar todo su potencial, el interés y las inversiones en esta tecnología aseguran que veremos avances significativos en los próximos años.