A medida que los modelos de lenguaje crecen en complejidad, y se usan cada vez más, también crece la necesidad de mecanismos que permitan a estos modelos aprender a comportarse de forma útil, segura y éticamente alineada.
Es en este contexto que Deepseek, una joven empresa china fundada en 2023, ha dado un paso audaz y prometedor con el desarrollo de Deepseek-GRM-27B: un modelo de recompensa de nueva generación que podría redefinir el aprendizaje por refuerzo en sistemas de IA.
Este artículo explora en profundidad el enfoque innovador de Deepseek, sus técnicas clave, así como su potencial impacto técnico y estratégico.
¿Qué son los modelos de recompensa y por qué importan?
En el campo del aprendizaje por refuerzo (RL, por sus siglas en inglés), un modelo de recompensa es el componente que determina qué acciones son deseables para un agente de IA.
Este agente interactúa con un entorno, toma decisiones y, según el modelo de recompensa, recibe señales positivas (recompensas) o negativas (castigos), lo que le permite aprender a comportarse de forma óptima con el tiempo.
Por ejemplo, un robot puede aprender a recoger objetos con precisión si recibe puntos cada vez que lo hace correctamente. En aplicaciones más sofisticadas, como asistentes conversacionales, las recompensas se basan en criterios como utilidad, claridad o satisfacción del usuario.
El problema es que las preferencias humanas son sutiles, cambiantes y a menudo subjetivas. Los métodos tradicionales, como el aprendizaje por refuerzo con retroalimentación humana (RLHF), intentan capturar estas preferencias mediante la evaluación manual de respuestas.
Si bien esto ha sido útil (modelos como ChatGPT y Claude utilizan RLHF), también es un proceso costoso, lento y poco escalable.
El enfoque disruptivo de Deepseek
Deepseek propone una nueva arquitectura para los modelos de recompensa que busca eliminar la dependencia excesiva de supervisión humana sin sacrificar la alineación con los valores humanos. Esto se logra gracias a tres pilares técnicos clave:
Generative Reward Modeling (GRM)
GRM es una técnica mediante la cual el modelo aprende a generar sus propios principios de retroalimentación. En lugar de depender exclusivamente de datos etiquetados por humanos, el modelo puede analizar diferentes respuestas a una tarea y deducir, por sí mismo, cuál es la más apropiada.
Por ejemplo, si se le pide a un sistema responder una consulta médica, GRM puede generar varias opciones, evaluarlas internamente y determinar cuál cumple mejor criterios como claridad, precisión y utilidad. Así, el modelo actúa como su propio juez, aprendiendo de forma más autónoma y eficiente.
Self-Principled Critique Tuning (SPCT)
SPCT complementa al GRM con un mecanismo de auto-crítica. Este permite al modelo ajustar dinámicamente sus propios principios de evaluación. Si las respuestas evaluadas como “buenas” resultan inadecuadas en la práctica, el modelo detecta estas inconsistencias y mejora sus criterios de recompensa.
Esto no solo mejora la adaptabilidad del sistema a nuevos contextos, sino que reduce la necesidad de ajustes manuales, logrando un sistema más resiliente y escalable.
Escalado en tiempo de inferencia
Una innovación menos común pero muy significativa en la propuesta de Deepseek es el enfoque de escalado en tiempo de inferencia del que hablamos previamente en “El avance en IA ¿Un camino cada vez más difícil y costoso?”
En lugar de concentrar todos los recursos computacionales durante la fase de entrenamiento, Deepseek propone asignarlos también durante la fase de uso (inferencia).
Esto permite que el modelo genere respuestas más precisas y contextualizadas sin requerir un reentrenamiento. Esta técnica es especialmente útil para tareas que exigen adaptabilidad en tiempo real, como la moderación de contenido o el soporte técnico.
Deepseek-GRM-27B: Resultados y rendimiento
El modelo Deepseek-GRM-27B, con 27 mil millones de parámetros, representa la culminación de estas innovaciones. Según el artículo técnico publicado en arXiv bajo el título “Inference-Time Scaling for Generalist Reward Modeling” (arXiv:2504.02495), este modelo supera a varios competidores clave.
- En pruebas con decodificación voraz, obtuvo una puntuación de 69.9, superando al modelo LLM-as-a-Judge (67.0).
- En voting@32 con MetaRM, alcanzó 72.8, frente a los 69.0 de Deepseek-PairRM-27B.
- En tareas de generalización como RMB BoN, la diferencia entre diferentes tipos de entrada fue inferior al 1%, mostrando su versatilidad.
Además, en comparación con modelos de alto nivel como GPT-4o (versión 2024-08-06), Deepseek-GRM-27B mostró una ligeramente superior capacidad de transferencia de principios de recompensa a nuevas tareas, lo que lo posiciona como un modelo altamente reutilizable y adaptable.
Una estrategia dual: Web, código abierto y comunidad
Deepseek no solo se enfoca en la innovación técnica, sino también en la accesibilidad y la colaboración.
La empresa ha anunciado que las funcionalidades de GRM y SPCT se están integrando gradualmente en su versión web, lo que permitirá a usuarios y empresas acceder a modelos de recompensa avanzados sin requerir infraestructura propia.
Más aún, Deepseek planea liberar componentes clave de su modelo como open-source. Esta decisión abre la puerta para que investigadores, laboratorios académicos y startups puedan estudiar, modificar y aprovechar estas tecnologías en sus propios proyectos.
En un entorno dominado por iniciativas propietarias de grandes tecnológicas, esta apuesta por el código abierto representa una bocanada de aire fresco para la comunidad científica.
Implicaciones para el futuro de la IA
El trabajo de Deepseek no es solo un avance técnico: es una redefinición de cómo entrenamos y evaluamos sistemas de IA. Entre sus implicaciones más relevantes destacan:
- Reducción de dependencia humana: Al automatizar la retroalimentación, se liberan recursos y se facilita el entrenamiento de modelos más amplios.
- Democratización del acceso a IA avanzada: Gracias a su enfoque open-source y web, estos avances estarán disponibles para actores fuera de los grandes centros de poder tecnológico.
- Mayor seguridad y alineación: Modelos capaces de criticarse y ajustarse reducen riesgos asociados con sesgos, errores o comportamientos inesperados.
- Aceleración de la investigación científica: Con sistemas más alineados y adaptables, tareas como el análisis de datos o la formulación de hipótesis podrían beneficiarse significativamente.
Gracias a técnicas como GRM, SPCT y su enfoque innovador en la inferencia, la empresa no solo ha superado a sus competidores en benchmarks, sino que ha sentado las bases para una IA más alineada, autónoma y accesible.
Al integrar estas capacidades en su plataforma web y apostar por el open-source, Deepseek no solo busca liderar técnicamente, sino también fomentar una comunidad global más colaborativa e inclusiva en el desarrollo de la inteligencia artificial.