La capacidad de la inteligencia artificial (IA) para generar contenido sintético no para de crecer. Desde imágenes y videos hasta texto y voz, las creaciones generadas por IA son cada vez más difíciles de distinguir de las reales.
En particular, la voz generada por IA ha suscitado gran preocupación debido a su potencial para ser utilizada en desinformación, fraudes y otros fines maliciosos.
Aquí exploramos si es posible detectar voces generadas por IA y cómo se están abordando los desafíos asociados con esta tecnología emergente.
El auge de la voz generada por IA
La síntesis de voz ha experimentado un notable progreso gracias a las redes neuronales profundas y otros avances en aprendizaje automático. Herramientas como FakeYou y PlayHT han facilitado la creación de voces sintéticas realistas, haciendo que sea accesible para una amplia gama de usuarios.
Estos sistemas pueden generar voces a partir de texto (TTS, text-to-speech) o transformar la voz de una persona en la de otra (voice conversion), reteniendo matices emocionales y patrones de respiración del discurso original.
Sin embargo, esta tecnología también ha sido utilizada para crear «deepfakes» de audio, donde voces de figuras públicas son falsificadas para difundir desinformación o realizar estafas.
Un caso reciente involucró una llamada falsa que parecía ser del presidente de Estados Unidos, Joe Biden, desalentando a los votantes demócratas en las primarias de New Hampshire. Este incidente subraya la necesidad urgente de herramientas confiables para detectar audio generado por IA.
Desafíos en la detección de audio generado por IA
La detección de voces generadas por IA es inherentemente más complicada que la detección de imágenes o videos falsos. El audio es un medio unidimensional y efímero, lo que dificulta la revisión y análisis para detectar señales de generación por IA.
Según Manjeet Rege, director del Centro de Inteligencia Artificial Aplicada en la Universidad de St. Thomas, el audio carece de contexto visual y pistas que pueden ayudar a identificar falsificaciones.
Los métodos de detección actuales dependen en gran medida del aprendizaje automático, donde modelos son entrenados con grandes conjuntos de datos de voces reales y sintéticas. Es decir, usando la IA para detectar contenido generado por otras IAs.
Estos modelos buscan patrones y características que puedan distinguir el audio generado por IA del audio real. Sin embargo, estos sistemas enfrentan varios obstáculos:
- Variabilidad del Audio: El audio puede degradarse fácilmente debido a la compresión, ruidos de fondo y otros factores, lo que complica la detección precisa.
- Actualización constante: Con nuevos modelos de generación de voz por IA lanzados cada semana, los sistemas de detección deben actualizarse continuamente para identificar diferencias sutiles entre voces reales y generadas.
- Limitaciones del idioma: La mayoría de los modelos actuales se centran en el inglés, lo que significa que pueden no ser efectivos para detectar audio generado en castellano o en otros idiomas.
¿Existe algo efectivo para detectar deepfakes de voz?
Diversas instituciones y empresas están desarrollando herramientas para detectar voces generadas por IA, aunque con resultados mixtos. Un experimento realizado por NPR (la radio pública de EEUU) probó 3 herramientas de detección de deepfakes: Pindrop Security, AI or Not y AI Voice Detector.
Los resultados variaron significativamente, con algunas herramientas fallando al identificar clips generados por IA o etiquetando erróneamente voces reales como falsas.
Investigadores de la Universidad de Granada (UGR) han desarrollado un sistema pionero para discernir si un audio es real o generado por IA, integrando modelos específicos para voces de personalidades frecuentes en desinformación.
Esta herramienta, parte de la Cátedra RTVE-UGR, pretende ser una solución avanzada para la verificación de noticias y combate de la desinformación.
Otro estudio en la Universidad de Buffalo probó 14 herramientas de detección de deepfakes de audio y encontró que ninguna era completamente confiable. Las herramientas probadas incluyeron DeepFake-o-meter y AI or Not, con resultados que variaban ampliamente según el audio y las condiciones de prueba.
Recomendaciones y enfoques combinados
Dado que las herramientas actuales no son completamente fiables, los expertos recomiendan un enfoque combinado para la detección de deepfakes de audio. Esto incluye el uso de múltiples métodos de detección y técnicas adicionales.
Por ejemplo, siempre que se pueda se debe realizar la verificación cruzada del audio. Esto consiste en confirmar la autenticidad del audio mediante la verificación de fuentes independientes y confiables.
Otra estrategia implica atender a detalles sutiles, como escuchar irregularidades en la respiración, pausas y entonaciones que podrían indicar la manipulación por IA.
Otras estrategias implican la psicología, como cuestionar la urgencia de una solicitud. Por ejemplo, audios que solicitan información personal o financiera de manera urgente deben ser tratados con sospecha siempre, ya ese sentido de urgencia sirve para evitar que las víctimas verifiquen la información.
Grandes plataformas como Meta y TikTok están desarrollando tecnologías para etiquetar contenido generado por IA, lo cual podría incluir también el audio en el futuro.
El futuro de la detección de voz creada por IA
A medida que la tecnología de generación de voz por IA sigue evolucionando, es esencial que las herramientas de detección mantengan el mismo ritmo. La colaboración entre desarrolladores de tecnología de síntesis de voz y expertos en detección puede aumentar la precisión y eficacia de estas herramientas.
Además, la implementación de políticas y regulaciones que exijan la identificación del contenido generado por IA puede ayudar a mitigar el impacto de la desinformación y otros usos maliciosos.
En resumen, aunque la detección de voz generada por IA presenta numerosos desafíos, los avances continuos en la investigación y el desarrollo de herramientas específicas prometen mejorar nuestra capacidad para identificar y mitigar los riesgos asociados.
Es fundamental que la sociedad permanezca alerta y adopte enfoques combinados para protegerse contra las amenazas emergentes que plantea esta tecnología en rápida evolución.