Desde que Amazon lanzó el primer Echo en 2015, los asistentes de voz han ido ganando presencia en los hogares de todo el mundo.
Dispositivos como Alexa, Google Assistant y Siri se han convertido en compañeros cotidianos para tareas básicas como reproducir música, controlar dispositivos inteligentes o consultar el tiempo.
Sin embargo, tras un auge inicial, muchos de estos asistentes parecen haber estancado, con funciones que no han evolucionado significativamente y una utilidad que sigue siendo limitada para la mayoría de los usuarios.
Con el avance de la inteligencia artificial (IA), la pregunta que surge es: ¿pueden los asistentes de voz revitalizarse y convertirse en herramientas realmente indispensables en nuestras vidas?
La caída y resurrección de Alexa
El caso de Alexa, el asistente de voz de Amazon, es uno de los más representativos de esta situación. A pesar de su popularidad inicial, Alexa no ha logrado mantener el mismo nivel de entusiasmo por parte de los usuarios a lo largo del tiempo.
En 2022, Amazon reportó una pérdida operativa de 10 mil millones de dólares relacionada con Alexa, lo que llevó a algunos a declarar que el asistente de voz estaba «muerto».
Sin embargo, Amazon no ha dejado de invertir en Alexa, y ya en ese entonces comenzó a explorar funciones de IA generativa, como el AlexaTM 20B.
Este modelo, desarrollado por los investigadores de Alexa AI, tiene 20 mil millones de parámetros y es capaz de aprender nuevos conceptos y transferir conocimientos entre diferentes idiomas y tareas con muy poca o ninguna intervención humana.
Esto representa un cambio de paradigma hacia una «inteligencia generalizable», que podría transformar radicalmente la manera en que interactuamos con nuestros asistentes de voz.
La apuesta de Amazon por la IA
En los últimos años, Amazon ha realizado importantes avances en su asistente de voz, Alexa, tanto a través de desarrollos propios como de adquisiciones estratégicas.
En 2024, Amazon lanzó Amazon Q, un asistente impulsado por IA generativa diseñado para mejorar la productividad de los empleados.
Este asistente no solo genera código, sino que también prueba, depura y realiza tareas de planificación y razonamiento de múltiples pasos, lo que representa un gran avance en la automatización de procesos.
Ya en 2023 Alexa mejoró su capacidad para mantener conversaciones más naturales y personalizadas, aprendiendo de los hábitos y preferencias de los usuarios.
Además, Amazon invirtió 4,000 millones de dólares en la startup Anthropic, especializada en IA generativa, y contrató a los cofundadores de Covariant, obteniendo derechos no exclusivos para utilizar sus modelos de IA.
Nuevas funciones de Amazon Alexa
En cuanto a las nuevas funciones añadidas, en 2022 Alexa incorporó la capacidad de mostrar subtítulos en tiempo real durante las llamadas y la opción de compartir y gestionar listas de compras con otros dispositivos Alexa.
En 2023, se añadieron rutinas personalizadas para automatizar tareas diarias y la función de traducción de llamadas en tiempo real.
En 2024, Alexa introdujo Smart Briefing, que proporciona resúmenes diarios de noticias generados por IA adaptados a los intereses del usuario, y una función de asistencia en la cocina, que sugiere recetas basadas en los ingredientes disponibles y guía paso a paso en la preparación.
Durante el CES 2024, Amazon presentó nuevas funciones de IA para Alexa, incluyendo Character.AI, que permite interactuar con personajes históricos y otros perfiles generados por IA.
También presentó Splash, que crea composiciones musicales basadas en instrucciones de voz; y Volley Games, un juego de adivinanzas impulsado por IA.
Estas funciones enriquecen la experiencia del usuario, haciendo las interacciones con Alexa más dinámicas y personalizadas.
El poder de la IA multimodal
Una de las áreas en las que la IA puede marcar una diferencia significativa es en el desarrollo de sistemas multimodales.
Estos sistemas son capaces de procesar diferentes tipos de datos, como lenguaje natural, visión por computadora y reconocimiento de voz, para comprender mejor el contexto en el que operan y resolver diversas tareas de manera más eficiente.
Amazon ha mostrado un claro interés en esta dirección. Rohit Prasad, el jefe de Alexa, ha mencionado que la empresa está trabajando en la «inteligencia ambiental», un concepto que va más allá de la simple respuesta a comandos de voz.
La idea es que Alexa pueda procesar una variedad de señales sensoriales, incluyendo visuales, táctiles y de ultrasonido, además del habla.
Este enfoque podría permitir a los asistentes de voz ofrecer una experiencia mucho más rica y personalizada, adaptándose de manera proactiva a las necesidades del usuario en lugar de limitarse a responder preguntas.
Retos y oportunidades para los asistentes de voz
Aunque la tecnología promete mucho, el camino hacia la revitalización de los asistentes de voz no está exento de desafíos.
Uno de los principales problemas que han enfrentado estos dispositivos es su limitada capacidad para realizar tareas complejas o personalizadas.
La mayoría de los usuarios siguen utilizando Alexa, Google Assistant o Siri para funciones básicas como poner temporizadores, reproducir música o consultar el clima, lo que ha llevado a que muchos vean a estos asistentes como herramientas de utilidad limitada.
Además, el modelo de negocio de estos dispositivos ha demostrado ser insostenible. En el caso de Alexa, por ejemplo, Amazon solo genera ingresos cuando las personas usan activamente los dispositivos, lo que no ha sido suficiente para compensar los costos de desarrollo y operación.
Sin un modelo de monetización claro, es difícil justificar las inversiones continuas en este tipo de tecnología.
Sin embargo, la incorporación de la IA generativa podría cambiar esta dinámica. Con la capacidad de aprender nuevas tareas a partir de unos pocos ejemplos y de adaptarse a diferentes contextos y usuarios, los asistentes de voz podrían volverse mucho más versátiles y útiles en el día a día.
Esto no solo podría aumentar su valor para los usuarios, sino también abrir nuevas oportunidades de monetización, como la personalización de servicios o la integración con otras plataformas digitales.