El pasado 20 de diciembre de 2024, OpenAI presentó su modelo más reciente, conocido como “o3”, en un anuncio en formato de vídeo que generó gran expectación.
Este modelo ha captado la atención del sector tecnológico debido a un logro notable: superó por primera vez a los humanos en el test ARC-AGI, una prueba diseñada para medir la capacidad de razonar y adaptarse a nuevos retos.
Sin embargo, este avance plantea preguntas sobre su arquitectura, coste y posibles implicaciones, especialmente dado que existen rumores de que una tarea de alto cómputo con este modelo podría costar hasta $2,000 dólares.
¿Qué es el ARC-AGI?
El ARC-AGI (“Abstraction and Reasoning Corpus for Artificial General Intelligence”) es un benchmark desarrollado por François Chollet, científico de Google, para medir la adaptabilidad y el razonamiento abstracto en sistemas inteligentes.
En lugar de centrarse en tareas basadas en conocimiento memorizado, como muchos otros benchmarks, el ARC-AGI evalúa la capacidad de los modelos para adquirir nuevas habilidades.
La prueba consiste en resolver problemas basados en patrones visuales. Cada reto presenta una serie de ejemplos en forma de cuadrículas de píxeles coloreados, seguidos de una pregunta similar que el sistema debe resolver completando la cuadrícula correcta.
Los humanos, como referencia, obtienen una puntuación media de poco más del 75% en el ARC-AGI, mientras que o3 logró un sorprendente 76%.
Esto representa un “punto de inflexión” en las capacidades de la inteligencia artificial, según el propio Chollet, quien calificó este resultado como un “cambio cualitativo”.
¿Qué hace diferente a o3?
Una de las características más intrigantes de o3 es que su arquitectura parece completamente distinta a la de modelos anteriores de la serie GPT. Aunque OpenAI no ha compartido detalles precisos, Chollet especula que el sistema utiliza un enfoque de “búsqueda intensiva en tiempo de prueba”.
Esto podría implicar un análisis exhaustivo de cadenas de pensamiento (“Chains of Thought”), un enfoque emergente que permite a los modelos desglosar sus procesos en pasos intermedios.
El rendimiento de o3 también sugiere un uso extensivo de computación, posiblemente similar a la estrategia de árboles de búsqueda Monte Carlo utilizada por AlphaZero, el famoso programa de DeepMind que dominó el ajedrez.
Esto significa que el modelo no solo procesa información, sino que también explora diferentes posibilidades antes de llegar a una solución, algo que no se había visto en los modelos GPT anteriores.
¿Es esto un paso hacia la AGI?
El concepto de inteligencia artificial general (AGI, por sus siglas en inglés) se refiere a un nivel de inteligencia máquina capaz de igualar o superar las capacidades humanas en cualquier tarea cognitiva.
Aunque el éxito de o3 en el ARC-AGI es significativo, Chollet enfatiza que no debería confundirse con haber logrado la AGI. “O3 todavía falla en tareas muy sencillas que los humanos resuelven con facilidad,” señaló, subrayando las limitaciones actuales del modelo.
El ARC-AGI es una herramienta de investigación, no una prueba definitiva de inteligencia general. Aún así, los resultados de o3 representan un avance importante hacia sistemas más inteligentes y humanos en su comportamiento.
Coste y recursos computacionales
Uno de los aspectos más debatidos sobre o3 es el coste asociado a su operación. OpenAI no ha revelado cuántos recursos computacionales se necesitaron para entrenar y ejecutar el modelo en el ARC-AGI.
Sin embargo, Chollet insinuó que el enfoque de o3 podría considerarse una forma de fuerza bruta, en el sentido de que utiliza cantidades masivas de computación para resolver problemas relativamente simples.
Este método de procesamiento intensivo tiene un precio elevado, con tareas de alto cómputo que podrían costar hasta $2,000 cada una.
Esto plantea preguntas sobre la sostenibilidad y eficiencia de este tipo de modelos. Si bien los resultados son impresionantes, el coste en términos de consumo energético y tiempo de cálculo podría limitar su aplicación práctica a gran escala.
Además, la dependencia de grandes cantidades de datos y recursos podría profundizar las desigualdades en el acceso a la tecnología.
Solo organizaciones con presupuestos significativos podrían permitirse desarrollar y mantener modelos como o3, lo que podría centralizar aún más el poder tecnológico.
¿Cuándo podremos probar o3?
OpenAI planea lanzar una versión “mini” de o3 a finales de enero de 2025, con una versión completa programada para más adelante.
Aunque esta versión inicial podría no incluir todas las capacidades demostradas en el ARC-AGI, ofrecerá una oportunidad para que investigadores y desarrolladores exploren el potencial del modelo.
El desarrollo de o3 marca un avance importante en la inteligencia artificial, mostrando capacidades de adaptación y razonamiento que antes parecían inalcanzables.
Sin embargo, también plantea preguntas fundamentales sobre los costes, tanto económicos como éticos, de perseguir este tipo de tecnologías.
¿Es este el camino hacia la AGI o simplemente una demostración de lo difícil y costoso que es superar los límites actuales? El debate está servido.