OpenAI ha lanzado GPT-4o mini, su modelo más eficiente hasta la fecha, diseñado para hacer la inteligencia artificial más accesible y económica. Según la empresa, este modelo tiene un coste de $0.15 por millón de tokens de entrada y $0.60 por millón de tokens de salida, siendo más de un 60% más eficiente que GPT-3.5 Turbo. A partir del 19 de julio de 2024, todos los usuarios de ChatGPT, ya sean de los planes Free, Plus o Team, usan este modelo en lugar de GPT-3.5. Los usuarios Enterprise lo tendrán disponible a partir de la próxima semana. ¿Qué podemos esperar del nuevo modelo? ¿Qué significa que sea más económico que sus predecesores? ¿Cómo se mide la eficiencia de un modelo de lenguaje? De todo esto y más discutiremos a continuación.

GPT-4o mini: el “pequeño” de la familia

OpenAI ha presentado GPT-4o mini como un modelo de lenguaje “pequeño” que mantiene un alto rendimiento, mientras reduce significativamente el coste computacional y el consumo energético. Este modelo promete ser más accesible y sostenible, lo que podría facilitar su adopción y uso en una variedad de aplicaciones. Según resultados de benchmarks liberados por OpenAI, GPT-4o mini se posiciona como una alternativa más eficiente a modelos grandes como GPT-4o, manteniendo un rendimiento competitivo en tareas de procesamiento de lenguaje natural. GPT-4o mini se presenta en un mercado donde otros modelos pequeños como Microsoft Phi-3 mini y Google Gemini Nano ya están presentes. A pesar de parecer una llegada tardía, la eficiencia y potencia del GPT-4o mini pueden superar a versiones completas de generaciones anteriores de modelos de otros proveedores.

¿Qué significa que GPT-4o mini sea un modelo “pequeño”?

Un Large Language Model (LLM) como GPT se describe como «pequeño» o «grande» principalmente en función de la cantidad de parámetros que tiene. Estas son partes del modelo que se ajustan durante el entrenamiento para mejorar el rendimiento en tareas específicas. En general, una mayor cantidad de parámetros significa una mejor capacidad del modelo para entender y generar lenguaje natural de manera efectiva. Pero también significa que el modelo necesita más potencia computacional (y por tanto más energía) para funcionar. GPT-4o mini tiene significativamente menos parámetros en comparación con modelos como GPT-4 o GPT-3.5. Esto lo hace menos intensivo en términos de recursos computacionales y más rápido para ejecutar en comparación con los modelos más grandes.

¿Qué tan bueno es GPT-4o mini con respecto a la competencia?

Según los benchmarks realizados por OpenAI GPT-4o mini obtiene un 82% en el benchmark MMLU, superando a GPT-4 en preferencias de chat y a otros modelos pequeños en tareas de razonamiento y multimodales. Soporta una ventana de contexto de 128K tokens y hasta 16K tokens de salida por solicitud. Mientras que su latencia baja lo hace ideal para aplicaciones que requieren múltiples llamadas a modelos, grandes volúmenes de contexto, o interacciones rápidas en tiempo real. Actualmente soporta texto y visión, con futuras capacidades para texto, imagen, video y audio. Con respecto a su multimodalidad, GPT-4o mini es superior en razonamiento textual y multimodal, con un rendimiento destacado en matemáticas y codificación.

¿Cómo se miden y se comparan los LLM y los modelos multimodales?

Existen herramientas y métodos utilizados para probar y medir el rendimiento de los modelos de inteligencia artificial generativa, como los modelos de generación de texto e imagen. Estos son esenciales para comprender la efectividad, precisión y creatividad de estos sistemas. Los benchmarks de LLM son conjuntos de datos y tareas estándar ampliamente adoptados por la comunidad de investigación para evaluar y comparar el rendimiento de varios modelos. Estos se utilizan para evaluar qué tan bien un modelo de IA puede generar contenido coherente, relevante y creativo, incluyendo texto, imágenes, música y otros. También permiten comparar diferentes modelos de IA para identificar cuáles son más eficientes o creativos en tareas específicas. Al probar modelos en diversos benchmarks, es posible identificar sesgos y limitaciones, como la capacidad de generar texto en varios idiomas. Además, los benchmark proporcionan retroalimentación esencial durante el desarrollo del modelo de IA, ayudando a refinar y mejorar el algoritmo. Algunos de los benchmarks más conocidos y populares para LLMs son HellaSwag, MMLU y TruthfulQA.

Preguntas Frecuentes

Estas son algunas preguntas frecuentes relacionadas con la medición de la eficiencia de grandes modelos de lenguaje (LLM) y sobre el nuevo GPT-4o mini:

¿Qué significa que un modelo sea más eficiente o más “económico”?

Significa que el modelo puede generar resultados comparables a los de modelos más grandes y costosos, pero utilizando menos recursos computacionales y energéticos. Esto también tiene un efecto en el tiempo promedio que se demora el modelo en generar la respuesta, o latencia.

¿Cómo se compara GPT-4o mini con GPT-4?

GPT-4o mini es una versión más eficiente de GPT-4o, diseñada para ofrecer un rendimiento similar con un menor costo computacional. Todo esto logrando un desempeño apenas inferior al modelo más grande y complejo.

¿Cuál es la ventaja de los modelos de lenguaje “pequeños”, como GPT-4o mini?

Modelos pequeños como GPT-4o mini permiten una mayor democratización de la tecnología de IA. Tener menos parámetros significan que el modelo puede generar respuestas más rápidamente, lo cual es crucial para aplicaciones en tiempo real. Además, los costos de entrenamiento y despliegue son menores, lo que hace que la tecnología sea más viable para una gama más amplia de aplicaciones comerciales y académicas. Por último, un menor consumo de energía contribuye a una reducción en el impacto ambiental, lo cual es una consideración importante en la implementación de tecnologías a gran escala.

GPT-4o mini y las llamadas múltiples a la API

Esta nueva Ia de OpenAI admite múltiples llamadas a la API lo que se traduce en una baja latencia y la posibilidad de realizar en paralelo varias tareas. En la actualidad esta versión más ligera y económica admite textoy visión a través de API de OpenAI y en un futuro cercano incorporará entrada y salida de texto, imágenes, vídeo y audio.

¿Es gratuito el nuevo modelo GPT-4o mini?

Pues por supuesto que sí, de hecho a venido a sustituir a GPT-3.5 en las versiones gratuitas. De hecho en comparación con GPT-3.5 turbo le gana en todos los ámbitos, por lo que es una gran noticia para las usuarios gratuitos.

¿Hasta qué fecha está entrenado GPT-4o mini?

Esta version gratuita de ChatGPT ha sido entrenada con datos con una antigüedad de hasta octubre de 2023, según Sam Altman,  el CEO responsable de OpenAI, la empresa desarrolladra este nuevo modelo de lenguaje.

GPT-4o mini, un nuevo modelo más seguro

En la creación de cada modelo también se trabaja la seguridad y este nuevo modelo de IA con razonamiento multimodal filtra más discursos de odio, contenidos de adultos o relacionados con sitios de correo basura, al mismo nivel que GPT-4o.

La API de GPT-4o mini es la primera que aplica la jerarquía de instrucciones de OpenAI que ayuda a mejorar la capacidad del modelo para resistir fugas de información, inyecciones de mensajes y extracciones de mensajes del sistema.