En la competencia entre modelos de lenguaje hay un nuevo líder, y es de código abierto. Se llama Reflection 70B y fue presentado este 5 de septiembre por Matt Shumer, cofundador y CEO de la startup HyperWrite AI.

Este modelo no solo rivaliza con los gigantes cerrados del sector, sino que también ofrece capacidades únicas que lo posicionan como el modelo open-source más potente del mundo.

Basado en la tecnología Llama 3.1-70B Instruct de Meta, el Reflection 70B introduce una técnica revolucionaria llamada Reflection-Tuning, diseñada para que los modelos identifiquen y corrijan sus propios errores.

Este avance es crucial para abordar uno de los mayores desafíos en la IA actual: las alucinaciones de los modelos de lenguaje.

El punto débil de los modelos actuales

Los modelos de lenguaje grandes (LLMs) son sistemas de IA diseñados para generar texto coherente y preciso a partir de indicaciones proporcionadas por los usuarios.

En los últimos años, modelos como GPT-4 de OpenAI y Claude de Anthropic han dominado el panorama, ofreciendo soluciones para tareas complejas como la generación de contenido, la traducción automática y la respuesta a preguntas.

Sin embargo, uno de los principales desafíos de estos modelos es su tendencia a alucinar, es decir, generar información inexacta o sin fundamento, lo que afecta su utilidad y confiabilidad.

El Reflection 70B de HyperWrite se diferencia de los LLM tradicionales al abordar este problema con una característica innovadora: la autocorrección de sus respuestas.

Esta capacidad lo coloca un paso adelante de otros modelos de código abierto, superando incluso a algunas soluciones comerciales en términos de precisión y rendimiento en los benchmarks que se le han realizado.

¿Qué es el Reflection 70B?

El Reflection 70B es un modelo de lenguaje avanzado basado en la arquitectura Llama 3.1-70B Instruct de Meta, lanzado en 2024. Desarrollado por HyperWrite bajo la dirección de su CEO, Matt Shumer, este modelo ha sido presentado como el “modelo open-source más potente del mundo”.

Su capacidad para competir directamente con modelos cerrados de gran prestigio, como Claude 3.5 Sonnet y GPT-4o, lo distingue en el campo de la inteligencia artificial.

La característica clave del Reflection 70B es su habilidad para aprender de sus errores mediante una técnica innovadora llamada Reflection-Tuning, lo que mejora significativamente su precisión y confiabilidad.

¿Qué es el Reflection-Tuning?

El Reflection-Tuning es una técnica desarrollada para que los modelos de lenguaje identifiquen y corrijan sus propios errores antes de proporcionar una respuesta final.

Inspirada en la capacidad humana de reflexionar sobre errores pasados y aprender de ellos, esta técnica permite que el modelo pase por un proceso de introspección.

Durante este proceso, el modelo evalúa sus propias respuestas en función de varios criterios, como la precisión, la relevancia y la coherencia.

Según Matt Shumer, Reflection-Tuning permite que los LLMs no solo sigan instrucciones, sino que también detecten alucinaciones y errores lógicos en sus respuestas.

Esta capacidad se implementa utilizando “tokens especiales” que el modelo emplea durante el proceso de generación de texto, permitiéndole dividir su razonamiento en pasos y detectar y corregir posibles errores en tiempo real.

Desempeño en benchmarks de Reflection 70B

El Reflection 70B ha sido evaluado rigurosamente en una serie de benchmarks de renombre, como MMLU y HumanEval, que prueban la capacidad del modelo para manejar tareas complejas de razonamiento y ejecución.

Además, HyperWrite utilizó el LLM Decontaminator de LMSys para asegurar que los resultados estuvieran libres de contaminación, es decir, que no estuvieran influenciados por datos similares utilizados durante el entrenamiento del modelo.

En estas pruebas, el Reflection 70B no solo superó a otros modelos de código abierto basados en Llama de Meta, sino que también se posicionó como un competidor directo frente a los modelos cerrados de mayor rendimiento.

En un post de X, Matt Shumer lo describió así:

Reflection 70B se defiende incluso frente a los mejores modelos de código cerrado (Claude 3.5 Sonnet, GPT-4o). Es el mejor LLM en (al menos) MMLU, MATH, IFEval, GSM8K. Supera a GPT-4o en todos los puntos de referencia probados. Supera por mucho al Llama 3.1 405B. No se le acerca ni un poco.

Esto lo convierte en una herramienta invaluable para tareas que requieren un alto nivel de precisión, ya que su capacidad para dividir el razonamiento en pasos garantiza que los errores se detecten antes de que la respuesta llegue al usuario.

Un modelo de IA más preciso y seguro

Una de las principales preocupaciones en el desarrollo de la IA es la precisión y la seguridad de los resultados generados.

Los LLMs, a pesar de su impresionante capacidad para generar texto coherente, suelen tener dificultades para distinguir entre respuestas correctas e incorrectas, lo que a menudo resulta en alucinaciones que comprometen su fiabilidad.

El Reflection 70B aborda este problema de manera directa con su capacidad de autocorrección, mejorando así su rendimiento general y reduciendo el riesgo de respuestas incorrectas.

Además, la técnica de Reflection-Tuning introduce una nueva aproximación a la solución de este problema. El modelo intercambia tokens adicionales y, por ende, tiempo y procesamiento, por una mayor precisión en las respuestas.

Esto es particularmente útil en aplicaciones donde la precisión es crítica, como en los ámbitos médico y legal.

¿Cómo probar Reflection 70B?

El Reflection 70B se puede descargar desde el repositorio de código de Hugging Face y también está disponible para pruebas en un entorno de demostración. Sin embargo, la alta demanda tras su lanzamiento ha saturado el sitio.

El lanzamiento del Reflection 70B es solo el comienzo. Shumer ya ha anunciado que están trabajando en un modelo aún más potente, el Reflection 405B, que promete superar incluso a los modelos cerrados más avanzados del mercado.

Este modelo estará disponible próximamente y se espera que ofrezca un rendimiento sin precedentes en tareas que requieran razonamiento complejo.