Alcanzar nuevos niveles de capacidad y rendimiento parece ser más desafiante y costoso que nunca para los modelos de Inteligencia Artificial.
La aparición de nuevos modelos como el o3 de OpenAI pone de manifiesto cómo las mejoras en la IA son cada vez más difíciles de alcanzar y, sobre todo, más costosas.
A medida que los modelos avanzan, las «leyes de escalamiento», que guiaban el progreso, están mostrando signos de agotamiento. Pero aún peor, las nuevas técnicas para superar estas limitaciones traen consigo nuevos retos.
Esto plantea preguntas cruciales sobre el futuro de la IA, sus usos prácticos y la sostenibilidad de los modelos avanzados. Exploremos este interesante tópico que seguramente marcará tendencia en este recién estrenado 2025.
La segunda era de las Leyes de Escalamiento
Históricamente, las leyes de escalamiento han guiado el desarrollo de modelos de IA: más datos, más parámetros y más capacidad computacional se traducían en mejores resultados.
Sin embargo, este enfoque está mostrando rendimientos decrecientes. Los investigadores han comenzado a referirse a esta etapa como “la segunda era de las leyes de escalamiento”, en la que los métodos tradicionales ya no son suficientes para generar avances significativos.
En su lugar, está surgiendo una nueva estrategia conocida como “escalado en tiempo de inferencia” o “test-time scaling”.
Escalado en Tiempo de Inferencia: ¿Qué es y cómo funciona?
El escalado en tiempo de inferencia consiste en aumentar el uso de recursos computacionales en la fase de inferencia, es decir, cuando el modelo responde a una solicitud.
En el caso del o3 de OpenAI, esto implica utilizar más chips, chips más potentes o trabajarlos durante periodos más prolongados para generar respuestas.
Los resultados iniciales de este enfoque son impresionantes. Por ejemplo, el modelo o3 obtuvo un 88% en el benchmark ARC-AGI, una prueba destinada a evaluar avances hacia la inteligencia general artificial (AGI).
En comparación, el modelo anterior de OpenAI, o1, solo alcanzó un 32%. Además, en una prueba de matemáticas complejas, o3 logró un 25%, muy por encima del 2% de otros modelos.
Sin embargo, estos logros tienen un costo considerable. Para alcanzar el puntaje más alto en ARC-AGI, el o3 utilizó más de 1.000 dólares en recursos computacionales por tarea, frente a los 5 dólares por tarea del modelo o1.
La versión de alta eficiencia del o3, que sacrificó solo un 12% de rendimiento, usó 170 veces menos computación, pero aun así representa un costo significativo en comparación con modelos más antiguos.
¿Cuáles son las causas de estos costos excesivos?
En primer lugar, tenemos la dependencia de la computación masiva. El aumento en el uso de chips y la necesidad de procesadores más potentes incrementa directamente los costos operativos.
Por ejemplo, las pruebas de alto rendimiento de o3 utilizaron recursos equivalentes a más de 10.000 dólares para una única tarea.
Las mejoras marginales en los modelos de IA ahora requieren inversiones desproporcionadas en infraestructura y tiempo. La dificultad para mejorar el rendimiento se debe a que los avances fáciles ya se han alcanzado y las próximas mejoras demandan enfoques cada vez más sofisticados.
Finalmente, no hay que descartar que existan ineficiencias en la implementación. Aunque el escalado en tiempo de inferencia genera resultados, también aumenta los tiempos de cálculo. En algunos casos, se necesitan entre 10 y 15 minutos para que el modelo produzca una respuesta óptima.
A veces, o3 es como matar moscas a cañonazos
Dada la magnitud de los costos, modelos como o3 no parecen estar diseñados para tareas del día a día. Usarlo para la mayoría de las tareas comunes, como redactar mensajes o resumir textos, es como matar moscas a cañonazos.
Mientras que herramientas como GPT-4o o Google Gemini 1.5 pueden responder preguntas simples de forma rápida y eficiente, el o3 se centra en consultas complejas que requieren un alto nivel de razonamiento.
Por ejemplo, el modelo podría ser útil para instituciones con bolsillos profundos, como equipos de investigación o corporaciones que buscan resolver problemas específicos de alta relevancia.
No obstante, incluso en estos casos, o3 sigue teniendo limitaciones. Según François Chollet, creador del benchmark ARC-AGI, o3 no es AGI y todavía falla en tareas sencillas que un humano podría resolver con facilidad.
Además, como la mayoría de los modelos de lenguaje, el o3 sigue sufriendo problemas de alucinaciones, es decir, proporcionar respuestas incorrectas pero que parecen convincentes.
Soluciones y el futuro del escalado
Para abordar los desafíos de costo y eficiencia, los investigadores están explorando varias estrategias:
- Desarrollo de chips más eficientes: Empresas como Groq, Cerebras y MatX están trabajando en la creación de procesadores que optimicen el rendimiento durante la inferencia. Estos chips podrían reducir drásticamente los costos asociados con el escalado en tiempo de inferencia.
- Mejoras en los algoritmos: La optimización de los algoritmos de IA podría permitir que los modelos generen resultados similares utilizando menos recursos. Esto incluiría técnicas para ajustar dinámicamente el nivel de computación necesario según la complejidad de la tarea.
- Integración de enfoques híbridos: Jack Clark, cofundador de Anthropic, sugiere que la combinación del escalado tradicional y el escalado en tiempo de inferencia podría maximizar los rendimientos. Esto permitiría aprovechar las fortalezas de ambos enfoques para tareas específicas.
- Reducción de costos a través de economías de escala: A medida que estas tecnologías se popularicen, podrían surgir economías de escala que disminuyan los costos de producción y operación.
¿Vale la pena? Preguntas abiertas sobre el desarrollo de la IA
El futuro del escalado en IA plantea preguntas importantes. ¿Es sostenible seguir aumentando los costos para lograr mejoras marginales? ¿Qué tipo de tareas justificarían el uso de modelos como o3?
Además, ¿cuánto más puede avanzar la IA sin un cambio fundamental en la forma en que entendemos y desarrollamos estos sistemas? La carrera por la IA está lejos de terminar, pero cada paso adelante parece requerir un precio más alto.