La inteligencia artificial (IA) ha dejado de ser una promesa futurista para convertirse en una realidad cotidiana.

Google, uno de los gigantes tecnológicos más influyentes, dio en agosto de 2024 un paso más allá con el lanzamiento de Gemini Live, una función que permite a los usuarios mantener conversaciones en tiempo real con su asistente de IA.

Este modo de conversación es comparable a otras innovaciones recientes, como el modo de voz avanzado de ChatGPT o el chat de voz de Microsoft Copilot, consolidando una nueva era en la interacción humano-máquina.

Aunque hablamos hace unos meses de las nuevas capacidades multimodales de Gemini, en este artículo exploraremos en profundidad el modo de conversación de Gemini Live, cómo funciona, para qué puede servir y cuáles son sus limitaciones.

¿Qué es Gemini Live?

Gemini Live es una función avanzada integrada en la aplicación Gemini de Google, diseñada para permitir conversaciones fluidas y naturales entre los usuarios y la inteligencia artificial.

A diferencia de los asistentes tradicionales, que requieren comandos específicos y estructurados, Gemini Live se adapta a un estilo de comunicación más humano.

Los usuarios pueden hablar con la IA en hasta dos idiomas simultáneamente, interrumpirla para añadir detalles o cambiar de tema, y recibir respuestas verbales en tiempo real.

Aunque inicialmente fue lanzada para los suscriptores de Gemini Advanced, ahora la función está disponible para todos los usuarios, incluidos aquellos que no pagan suscripción.

Sin embargo, existen ciertas condiciones: la herramienta solo está disponible en países donde Google ha lanzado oficialmente el servicio y los usuarios deben tener al menos 18 años.

Cómo funciona Gemini Live

Gemini Live combina tecnologías avanzadas de procesamiento de lenguaje natural (NLP) y reconocimiento de voz para ofrecer una experiencia conversacional fluida.

Cuando un usuario inicia una conversación, la IA analiza el contexto de las palabras, el tono de voz y las intenciones detrás de las preguntas. Luego responderá de manera coherente, adaptándose a cambios en la conversación, como interrupciones o solicitudes de más detalles.

Una de las características más destacadas es la capacidad de interrumpir a la IA. Si el usuario no está de acuerdo con una respuesta o quiere añadir información, puede hablar encima de Gemini Live sin necesidad de tocar ningún botón.

Esto hace que la interacción sea más natural y menos robótica. Además, las conversaciones pueden pausarse y reanudarse en cualquier momento, lo que permite a los usuarios gestionar su tiempo de manera más eficiente.

Otra funcionalidad innovadora es la posibilidad de usar Gemini Live en segundo plano. Los usuarios pueden continuar la conversación mientras utilizan otras aplicaciones o incluso con la pantalla del dispositivo bloqueada.

Esto es especialmente útil para tareas que requieren multitarea, como cocinar mientras se siguen instrucciones o conducir mientras se reciben indicaciones.

¿Para qué se puede usar la conversación con Gemini Live?

Gemini Live no es solo una herramienta tecnológica impresionante; también tiene aplicaciones prácticas que pueden mejorar significativamente la vida diaria de los usuarios.

Una de las áreas donde más destaca es en la asistencia personal. Por ejemplo, los usuarios pueden pedirle a Gemini Live que les ayude a planificar un evento, gestionar su agenda o buscar información específica, como recetas o recomendaciones de restaurantes.

La IA puede generar listas de compras, agregar eventos al calendario o enviar recordatorios, todo ello mediante una simple conversación.

Otra aplicación importante es en el ámbito del aprendizaje y la exploración. Gemini Live puede actuar como un tutor personal, respondiendo preguntas detalladas sobre temas complejos, desde historia y ciencia hasta cultura y tecnología.

Ayuda contextual

Además, su capacidad para analizar imágenes y vídeos en tiempo real permite a los usuarios obtener información adicional sobre lo que están viendo.

Por ejemplo, si un usuario está viendo un vídeo sobre un destino turístico, puede preguntarle a Gemini Live sobre los lugares mencionados y recibir recomendaciones para agregarlos a su itinerario en Google Maps.

En el ámbito profesional, Gemini Live también tiene mucho que ofrecer. Puede ayudar a los usuarios a generar ideas creativas, redactar informes o incluso ensayar presentaciones importantes.

Su capacidad para resumir documentos y extraer información clave lo convierte en una herramienta valiosa para la productividad. Además, su integración con aplicaciones como Gmail, Keep y Calendar facilita la gestión de tareas y proyectos.

¿Quiénes pueden usar Gemini Live? Limitaciones

El modo de conversación en tiempo real de Gemini Live está disponible únicamente en dispositivos Android. No funciona en iOS ni en la versión web de Gemini. Además, su disponibilidad está restringida a ciertos países y a usuarios mayores de 18 años.

Aunque ya no es necesario tener una suscripción a Gemini Advanced, algunas funcionalidades avanzadas pueden seguir estando reservadas para suscriptores premium.

Por otra parte, aunque Gemini Live admite más de 40 idiomas, algunos, como el chino de Hong Kong y el farsi, no están soportados. Esto puede ser un obstáculo para usuarios en regiones donde estos idiomas son predominantes.

Es posible que la personalización de voz no esté disponible en todos los idiomas, lo que podrías limitar la experiencia para algunos usuarios. Afortunadamente en español, inglés, portugués y francés la experiencia es sumamente satisfactoria.

¿Cómo probar Gemini Live y conversar con una IA?

Debes tener instalada la aplicación Gemini en tu dispositivo Android. Puedes descargarla desde Google Play Store si no la tienes. También necesitas una cuenta personal de Google (no funciona con cuentas de trabajo o educativas) y tener más de 18 años.

Una vez que cumplas con los requisitos anteriores, sigue estos pasos para comenzar a usar Gemini Live:

  1. Inicia sesión con tu cuenta de Google: Abre la aplicación e inicia sesión con tu cuenta personal de Google. Asegúrate de que no estés usando una cuenta de trabajo o educativa.
  2. Activa Gemini Live: Una vez que tengas acceso a Gemini Advanced, abre la aplicación y busca la opción «Live» en la interfaz. Normalmente, aparece como un botón en la parte inferior de la pantalla, al lado derecho del prompt.
  3. Configura tu micrófono y voz: La primera vez que uses Gemini Live, es posible que la aplicación te pida configurar el micrófono y seleccionar una voz para Gemini. Puedes elegir entre varias opciones de voz, como Ursa o Dipper, dependiendo de tu idioma.
  4. Comienza a hablar: Una vez configurado, simplemente toca el botón «Live» y comienza a hablar.

Puedes hacer preguntas, pedir ayuda con tareas o simplemente entablar una conversación. Recuerda que puedes interrumpir a Gemini en cualquier momento si necesitas añadir detalles o cambiar de tema.

En la mayoría de los dispositivos Android el sistema te dará la oportunidad de sustituir el actual asistente de Google por Google Gemini Live. Pero Gemini Live es mucho más que un asistente de voz; es una ventana al futuro de la comunicación con la inteligencia artificial.