Imagina que quieres contratar a un redactor para tu agencia de marketing. Tienes dos opciones: el Candidato A, que tiene un título académico impecable y sacó un 10 en todos sus exámenes teóricos, y el Candidato B, que quizás no tiene tantos diplomas, pero ha ganado los últimos diez torneos de escritura creativa frente a audiencias reales. ¿A quién elegirías?

En el mundo de la Inteligencia Artificial, nos está pasando algo parecido. Durante años, nos han bombardeado con siglas como MMLU o GPQA, exámenes estáticos donde los modelos de IA sacan notas excelentes. 

Pero, para quienes trabajamos en el «barro» del marketing diario, esas notas nos dicen poco sobre si esa IA nos va a ayudar a escribir un correo que convierta o a diseñar una campaña brillante.

Aquí es donde entran «Los Juegos del Hambre de la IA». Olvida los exámenes aburridos; lo que hoy manda es el rating ELO.

El origen: Del tablero de ajedrez a tu pantalla

El sistema ELO no nació en un laboratorio de Silicon Valley. Fue creado en los años 60 por Arpad Elo, un físico y maestro de ajedrez que buscaba una forma más justa de medir la habilidad relativa de los jugadores. En lugar de dar una puntuación fija, el ELO es dinámico: los puntos se ganan o se pierden «robándoselos» al oponente tras cada partida.

Si un jugador con mucho rating pierde contra un novato, el sistema le quita muchísimos puntos porque el resultado ha sido una sorpresa. Si el favorito gana, apenas sube, porque es lo que se esperaba.

Es una escala que nunca se satura y que siempre te dice quién es mejor en relación con los demás en ese momento preciso.

¿Cómo funciona la «Arena» de las IAs?

Seguramente hayas oído hablar de GPT-4o, Claude o Gemini. Pero, ¿cómo sabemos cuál es realmente mejor para un usuario de a pie? La respuesta está en plataformas como la Chatbot Arena (LMSYS).

Imagina un coliseo digital. Tú, como usuario, lanzas una pregunta o una tarea (un «prompt»). Dos modelos de IA anónimos (llamémosles Modelo A y Modelo B) generan una respuesta al mismo tiempo. Tú las lees y votas por la que más te gusta, sin saber cuál es cuál.

Es un test de sabor a ciegas, pero con algoritmos. Tras miles de estas «batallas», se calcula un ranking ELO que refleja las preferencias reales de los humanos. Es una métrica «viva» que captura lo que los exámenes estáticos ignoran: la utilidad real, el tono y la capacidad de conectar con lo que pedimos.

Por qué esto es oro puro para el Marketing

Si eres CMO, copywriter o estratega digital, el ELO debería ser tu brújula por varias razones de peso:

  • Es a prueba de «trampas»: Los exámenes tradicionales (benchmarks estáticos) son fáciles de «entrenar» específicamente para aprobar, igual que un estudiante que memoriza las respuestas de un examen de años anteriores. El ELO es impredecible porque depende de lo que usuarios reales pregunten cada día.
  • Refleja la «vibe» del contenido: En marketing, no solo buscamos que la información sea correcta; buscamos que suene bien. El ELO pondera esa satisfacción humana que ninguna fórmula matemática puede medir por sí sola.
  • Te ayuda a optimizar costes: Para muchas tareas de marketing, un modelo más barato pero con un ELO competitivo puede darte resultados casi idénticos a los del líder del mercado.

El ELO en el día a día de las empresas

No creas que esto es solo para frikis de la tecnología. Empresas como Gong ya utilizan el sistema ELO de forma interna.

En lugar de un ranking general, usan el ELO para medir tareas específicas, como resumir una llamada de ventas o analizar el sentimiento de un cliente. Ponen a competir a diferentes modelos sobre sus propios datos y solo despliegan aquel que gana la «batalla» de eficiencia.

Esto es el futuro del marketing operativo: no elegir una IA porque sea la más famosa, sino porque ha demostrado ser la mejor en el ring de tu necesidad específica.

No todo es perfecto: Las grietas del coliseo

Como en cualquier competición, hay matices. El ELO en la IA tiene sus limitaciones que debemos conocer:

  • El ruido de los jueces: Los humanos somos subjetivos. A veces votamos por la respuesta que parece más educada o la que tiene un formato más bonito, aunque el contenido sea menos preciso.
  • No sirve para todo: Si necesitas una IA para programar código complejo o resolver problemas matemáticos puros, el ELO basado en votos de usuarios puede ser volátil. Ahí es mejor fiarse de métricas de verificación directa, como las tasas de éxito en ejecución de código.
  • La trampa de la novedad: El sistema asume que las habilidades de los competidores son estables, pero la IA evoluciona cada semana. Un modelo que hoy es el rey de la arena puede quedar obsoleto en un mes si no se actualiza su entrenamiento.

¿Quién ganará la batalla final?

La diferencia de calidad entre las IAs más potentes es cada vez menor, lo que nos obliga a ser mucho más selectivos. El rating ELO nos quita la venda del marketing de las grandes tecnológicas y nos muestra quién está rindiendo realmente bajo presión.

Para vuestra próxima campaña o para elegir la herramienta que automatizará vuestros informes, no miréis solo el nombre de la empresa que está detrás. Id a la «Arena», mirad los rankings ELO y elegid al gladiador que mejor sepa conectar con lo que vuestros clientes necesitan.

Al final, en esta competición, los verdaderos ganadores somos nosotros: los usuarios que tenemos a nuestra disposición herramientas cada vez más afinadas y alineadas con lo que consideramos valioso.