Google parece estar aprovechando los últimos días del año para ponerse al día. Tras la presentación del modelo Gemini 2.0, nos sorprende con el lanzamiento de Gemini 2.0 Flash Thinking, su primer modelo centrado en el «razonamiento» en IA.
Este nuevo modelo experimental promete transformar cómo las máquinas abordan problemas complejos, ofreciendo una mejor comprensión, análisis y toma de decisiones en comparación con los modelos de IA tradicionales.
Pero, ¿qué hace único a este modelo y cómo se diferencia de otras propuestas en el mercado?
¿Qué es Gemini 2.0 Flash Thinking?
Gemini 2.0 Flash Thinking es una versión experimental del modelo de IA Gemini 2.0 de Google, diseñada específicamente para mejorar el razonamiento lógico y la capacidad de descomponer problemas complejos en pasos lógicos más simples.
A diferencia de los modelos de IA convencionales que responden directamente a las preguntas sin mostrar su proceso interno, este modelo tiene la capacidad de «pensar en voz alta», es decir, desglosa su razonamiento mientras resuelve los problemas.
Este enfoque no solo permite una mejor comprensión de la respuesta final, sino que también proporciona transparencia al proceso, lo que es crucial para evitar errores o «alucinaciones» que a menudo ocurren en las IA.
Aún no disponible en forma de chatbot público
El modelo está disponible a través de Google AI Studio, la plataforma de prototipado de IA de Google, y Gemini API, donde los desarrolladores pueden interactuar con él para generar respuestas más informadas y lógicas.
Además, ofrece un rendimiento destacado en áreas como programación, matemáticas, física y otros problemas complejos que requieren un análisis profundo.
¿Cómo funciona Gemini 2.0 Flash Thinking?
El funcionamiento del modelo se basa en la capacidad de razonamiento, lo que lo diferencia de otros modelos que simplemente generan respuestas.
Cuando se le plantea una pregunta, Gemini 2.0 Flash Thinking no responde de inmediato. En lugar de ello, realiza un proceso de «pensamiento» previo en el que evalúa varias posibles respuestas, considera los contextos y realiza un desglose paso a paso de cómo llegaría a una conclusión lógica.
Durante este proceso, el modelo explica su razonamiento, permitiendo al usuario comprender cómo se ha llegado a la respuesta final.
Este modelo está optimizado para trabajar con entradas multimodales, lo que significa que puede procesar tanto texto como imágenes, una característica que refuerza aún más su capacidad para entender problemas complejos.
Sin embargo, debido a su enfoque de razonamiento, el modelo tiende a ser más lento que otros modelos de IA en términos de tiempo de respuesta, ya que debe realizar estos procesos de pensamiento antes de ofrecer una respuesta.
Cadena de razonamiento o Chain of thought (CoT)
Uno de los aspectos más interesantes de Gemini 2.0 Flash Thinking es su capacidad para mostrar sus pensamientos a medida que resuelve problemas. Además, puede dividir un problema mayor en pasos lógicos más pequeños y manejables.
Estos pasos intermedios se conocen con una cadena de razonamiento, o chain of thought en inglés. Así se puede mejorar la capacidad de los modelos de lenguaje de razonar de forma compleja, similar a como lo hacen los seres humanos.
Esto es especialmente útil en tareas que requieren un análisis detallado, como la resolución de problemas matemáticos, la explicación de teorías científicas o la toma de decisiones basadas en múltiples factores.
Diferencias con el modelo o1 de OpenAI
Uno de los competidores directos de Gemini 2.0 Flash Thinking es el modelo o1 de OpenAI, que también está diseñado para realizar razonamiento avanzado. Aunque ambos modelos comparten un enfoque similar al de razonamiento y solución de problemas complejos, existen diferencias clave en su funcionamiento.
A falta de pruebas y benchmarks, la principal diferencia está en la accesibilidad y personalización.
Gemini 2.0 Flash Thinking ofrece un control más detallado sobre los ajustes de seguridad a través de Google AI Studio, lo que permite a los usuarios ajustar aspectos como la moderación de contenido peligroso o explícito.
Este tipo de personalización no es tan fácilmente accesible en o1, lo que puede ser un punto a favor para aquellos que deseen un mayor control sobre las respuestas generadas por la IA.
Gemini 2.0 Flash Thinking es accesible en forma de chatbot, para el público general a través de Google AI Studio de forma gratuita (al momento de escribir este artículo). A diferencia del OpenAI o1, que solo es accesible con una suscripción de pago de ChatGPT (Plus, Teams, etc). Aunque se ha presentado o3 todavía no está disponible en las suscripciones en diciembre de 2024.
La competencia en modelos de razonamiento
A lo largo de 2024, hemos sido testigos de una carrera por el desarrollo de modelos de IA que puedan razonar de manera avanzada.
Además de Gemini 2.0 Flash Thinking y o1 de OpenAI, varios competidores han presentado modelos similares en busca de mejorar el razonamiento y las capacidades de análisis de la IA.
DeepSeek-R1
Uno de los competidores más recientes en este campo es el modelo DeepSeek-R1, lanzado por DeepSeek, una empresa de investigación en IA respaldada por traders cuantitativos.
Este modelo está diseñado para abordar tareas complejas y actuar como un «agente de razonamiento», similar a los modelos de OpenAI y Google, y es uno de los principales contendientes en el campo del razonamiento avanzado.
Qwen de Alibaba
Otro modelo importante es Qwen QwQ-32B, lanzado por el equipo de IA de Alibaba en noviembre de 2024.
Qwen se presentó como un competidor directo de o1 de OpenAI, destacando por su capacidad de razonamiento y su enfoque en la inteligencia artificial multimodal, lo que lo coloca en la misma categoría que el modelo de Google.
Nos espera un 2025 interesante
El lanzamiento de Gemini 2.0 Flash Thinking marca otro hito en la era emergente, una en la que las máquinas no solo resuelven problemas, sino que también explican cómo lo hacen.
Al ofrecer un modelo de razonamiento, Google busca disputar el liderazgo que actualmente reclama OpenAI con su o1. Sin embargo, ambos modelos siguen siendo experimentos, ya que solo ofrece ventajas comparativas en problemas específicos, siendo mucho más lento en la mayoría.
Con más competidores entrando en el juego, estamos seguros de que 2025 será un año clave para el desarrollo de modelos de razonamiento avanzados que cambiarán la forma en que entendemos y utilizamos la IA. Y cómo la IA nos entiende a nosotros.