En un entorno en el que el coste energético y de infraestructura se ha convertido en un factor determinante, Google ha logrado destacar con sus modelos Gemini 2.5 Pro y Flash gracias a su integración vertical de hardware y software.

Estos nuevos modelos no solo lideran en benchmarks de razonamiento, ciencia y multimodalidad, sino que lo hacen con ventanas de contexto de hasta un millón de tokens y a velocidades de generación superiores a 200 tokens/s. 

Además, la arquitectura TPU de Google, optimizada para eficiencia energética y rendimiento por vatio, contrasta con la dependencia casi absoluta de la industria en GPUs de Nvidia, que acaparan más del 90 % del mercado de aceleradores de IA

Veamos en detalle como sus nuevos modelos y su control de los chips de IA han situado a Google en una posición ventajosa frente a sus competidores.

Diferencias entre Gemini 2.5 Pro y Flash y sus competidores directos

Antes de sumergirnos en cifras y resultados, conviene distinguir los dos sabores de Gemini 2.5 y entender su posición frente a alternativas semejantes en el mercado.

Gemini 2.5 Pro está pensado para cargas de trabajo exigentes: razonamiento complejo, generación de código avanzado y escenarios multimodales a gran escala. 

Su ventana de contexto de hasta 128 k–1 M tokens y su diseño optimizado para tareas críticas lo convierten en rival directo de modelos como GPT‑4.5 y o3-mini de OpenAI, Claude 3.7 Sonnet de Anthropic y el nuevo Llama 3 de Meta en su versión más potente.

Por su parte, Gemini 2.5 Flash busca equilibrar velocidad y coste: con latencias mínimas, throughput elevado (>200 tokens/s) y precios por token muy bajos, se alinea con GPT‑4 Turbo, Claude 3 Haiku o Mistral Mix en su orientación a aplicaciones en tiempo real y servicios de alto volumen.

Con esta visión clara de sus versiones y competidores, pasamos ahora a analizar en detalle los benchmarks y el desempeño de cada una.

Gemini 2.5 Pro y Flash: benchmarks y desempeño

Más allá del discurso de marketing, lo que realmente importa es cómo se comportan los modelos en pruebas reales. Gemini 2.5 Pro y Flash han pasado por evaluaciones que muestran su capacidad para competir (y superar) a los mejores.

Gemini 2.5 Pro

  • Razonamiento y conocimientos generales: en el benchmark Humanity’s Last Exam, Gemini 2.5 Pro obtiene un 18,8 % de acierto, superando a o3‑mini (14 %) y a Claude 3.7 (8,9 %) 
  • Codificación: alcanza un 63,8 % en SWE‑Bench Verified con agentes personalizados, demostrando su dominio en tareas de generación y edición de código.
  • Contexto largo (MRCR): registra un 91,5 % en pruebas de co‑referencia y diálogos extensos de hasta 128 000 tokens, una cifra sensiblemente superior a la de GPT‑4.5 (48,8 %) y o3‑mini (36,3 %).
  • Rendimiento multimodal: lidera en benchmarks que combinan texto, imágenes, audio y vídeo, con un 81,7 % en MMMU.

Gemini 2.5 Flash

  • Velocidad: genera salidas a 248,9 tokens/s, casi el doble que su antecesor Gemini 1.5 Flash.
  • Pensamiento controlable: permite ajustar un “thinking budget” para equilibrar calidad y latencia según la complejidad de la tarea.
  • Ventana de contexto: soporta hasta 1 millón de tokens, ideal para procesar documentos extensos o conversaciones prolongadas sin fragmentar la información.

Costes de API y “thinking budgets”

La eficiencia no solo se mide en potencia o velocidad, sino también en lo que cuesta utilizarla. En este apartado, Google ha introducido un cambio significativo que afecta tanto a grandes empresas como a pequeños desarrolladores.

Costes de Gemini 2.5 Pro

$1,25 por millón de tokens de entrada y $10,00 por millón de tokens de salida (ventas mayores de 128 k) con un precio “blended” medio de $3,44/token al combinar input y output en proporción 3:1.

Costes de Gemini 2.5 Flash

$0,075 por millón de tokens de entrada y $0,30 por millón de tokens de salida, hasta 133 veces más barato que GPT‑4 Turbo en inputs y 3,3 veces más económico en outputs que Claude 3 Haiku.

Cuando se usa en modo razonamiento en Gemini 2.5 Flash, la salida varía entre $0,60 y $3,50 por millón de tokens, de modo que solo se factura la “carga cognitiva” realmente necesaria.

¿Qué es un thinking budget? 

Un “thinking budget” (presupuesto de pensamiento) es un parámetro que Google ha introducido en Gemini 2.5 Flash para que los desarrolladores controlen cuánta capacidad de razonamiento interno utiliza el modelo antes de generar la respuesta.

En lugar de pagar siempre por el mismo nivel de razonamiento, puedes:

  • Asignar un presupuesto de tokens (entre 0 y 24 576) para la fase de “pensamiento” del modelo, tanto vía el parámetro thinking_budget en la API como mediante el control deslizante en Google AI Studio o Vertex AI.
  • Reducir costes y latencia al ajustar ese presupuesto: con un valor de 0 tokens, Flash omite el razonamiento complejo y cobra la tarifa mínima por salida ($0,60/M tokens), logrando la latencia más baja y un ahorro de hasta un 600% en comparación con un presupuesto alto 
  • Pagar sólo por lo que necesites: cuando el pensamiento está habilitado, la salida con razonamiento puede llegar a costar $3,50/M tokens, pero sólo se factura si el modelo efectivamente utiliza esos tokens para razonar 

TPU: La ventaja estratégica de Google

Google diseña y fabrica sus TPUs para maximizar la eficiencia por vatio, alcanzando hasta 2,7 veces mejor rendimiento/Watt que la generación anterior y un consumo típico de 200 W por chip en TPU v4 

El estudio LCA (Life Cycle Assessment) de Google revela que las últimas generaciones de TPUs triplican la eficiencia de carbono en comparación con versiones anteriores, reduciendo significativamente las emisiones de CO₂ por trabajo de IA 

En contraste, Nvidia controla entre el 80 % y el 92 % del mercado de aceleradores de IA, lo que genera dependencia de sus GPUs y presiona al alza los precios de desarrollo y despliegue de IA.

Esta asimetría de proveedores concede a Google mayor flexibilidad para ajustar costes y optimizar su infraestructura sin depender de la oferta limitada de chips de terceros. 

La eficiencia como imperativo en la IA

La proliferación de modelos de gran escala ha incrementado exponencialmente el consumo energético de los centros de datos, lo que genera costes operativos elevados y un impacto medioambiental significativo. 

La necesidad de reducir tanto el gasto como la huella de carbono es, por tanto, una prioridad para proveedores y usuarios de IA.

Especialistas en sostenibilidad señalan que más del 70 % de las emisiones asociadas a los chips aceleradores de IA provienen de su consumo eléctrico operativo, subrayando la relevancia de mejorar la eficiencia energética del hardware.

La combinación de rendimiento de vanguardia y precios competitivos que vemos con Google Gemini 2.5 democratiza el acceso a la IA, permitiendo a startups y pymes incorporar soluciones avanzadas sin incurrir en costes prohibitivos.