La inteligencia artificial no deja de sorprendernos, y no siempre para bien. Esta semana, DeepSeek, un laboratorio chino de IA con importantes fondos, ha lanzado su modelo DeepSeek V3, diseñado para tareas complejas como programación y redacción de textos.
El modelo ha demostrado ser eficiente y competitivo en pruebas de referencia, pero también ha mostrado un defecto peculiar: está convencido de que es ChatGPT, el famoso chatbot de OpenAI.
La «crisis de identidad» de DeepSeek V3
Usuarios en redes sociales y expertos en tecnología han compartido pruebas donde DeepSeek V3 no solo se presenta como ChatGPT, sino que insiste en ser una versión de GPT-4 lanzada por OpenAI en 2023.
Cuando se le piden instrucciones relacionadas con DeepSeek, responde con información sobre las APIs de OpenAI. Incluso llega a contar los mismos chistes que GPT-4, replicando sus punchlines.
Este comportamiento erróneo ha suscitado tanto risas como preocupación. Mientras las redes sociales se llenan de memes sobre la «crisis de identidad» del modelo, expertos en IA advierten de problemas relacionados con el entrenamiento de modelos y la integridad de los datos.
El origen del problema
DeepSeek no ha revelado muchos detalles sobre las fuentes de datos empleadas para entrenar V3. Sin embargo, los indicios apuntan a que el modelo fue expuesto a textos generados por ChatGPT o GPT-4.
Esto podría haber ocurrido de forma accidental, pero también podría ser una estrategia deliberada para aprovechar el conocimiento de otro modelo.
Mike Cook, investigador en inteligencia artificial del King’s College de Londres, comparó esta situación con hacer fotocopias de una fotocopia: “Cada vez que replicamos algo sin la fuente original, perdemos información y conexión con la realidad”.
El resultado es un modelo que no solo imita las respuestas del original, sino que también hereda sus errores y sesgos.
El uso de datos generados por ChatGPT podría también infringir los términos de servicio de OpenAI, que prohíben utilizar sus salidas para entrenar modelos que compitan con sus productos.
Sobra decir que este asunto, de ser demostrado como cierto, plantea cuestiones legales sobre la transparencia y las prácticas éticas en el desarrollo de IA.
Un problema de contaminación de datos
El caso de DeepSeek V3 refleja un problema más amplio en la industria de la IA: la contaminación de datos. Con el creciente uso de modelos generativos, la web está saturada de contenido generado por IA.
Se estima que para 2026, el 90% del contenido en línea podría ser creado por sistemas automatizados. Esta situación dificulta filtrar adecuadamente los datos empleados para entrenar nuevos modelos.
Cuando los modelos de IA absorben datos generados por otros modelos, existe el riesgo de crear un ciclo de errores y sesgos.
Heidy Khlaaf, directora científica de IA en el AI Now Institute, explicó que los desarrolladores podrían verse tentados a recurrir a estas prácticas para ahorrar costes, aunque esto comprometa la calidad del modelo.
Reacciones de la industria
La industria no ha tardado en pronunciarse. Sam Altman, CEO de OpenAI, publicó en X (antes Twitter) un mensaje que parece ser una indirecta a DeepSeek: “Es fácil copiar algo que ya sabes que funciona. Lo difícil es crear algo nuevo, arriesgado y desafiante, sin saber si tendrá éxito”.
Por otro lado, DeepSeek no es el único modelo que ha mostrado comportamientos similares. Google Gemini, por ejemplo, también ha llegado a identificarse incorrectamente como otros sistemas, como el chatbot chino Wenxinyiyan de Baidu.
Esto sugiere que el problema no es exclusivo de DeepSeek, sino una consecuencia generalizada de entrenar modelos con datos contaminados.
Implicaciones éticas y legales
El incidente con DeepSeek V3 pone de manifiesto la urgencia de establecer regulaciones más estrictas en la recolección y uso de datos para entrenar IA.
Sin un marco legal claro, las empresas podrían enfrentarse a litigios costosos y pérdidas de confianza por parte del público.
Además, este tipo de incidentes afecta la reputación de toda la industria. Si los modelos de IA no pueden ser confiables ni para identificar su propia procedencia, ¿cómo podrán ganarse la confianza en sectores críticos como la salud o las finanzas?
El futuro de la IA tras el incidente
La controversia podría acelerar el desarrollo de tecnologías para mitigar errores, como la Verificación de Generación Aumentada por Recuperación (RAG-V, por sus siglas en inglés).
Estas soluciones buscan integrar pasos de verificación que mejoren la precisión y la confiabilidad de las respuestas generadas por IA.
Sin embargo, las soluciones tecnológicas no bastan. Es fundamental que las empresas adopten prácticas éticas y transparentes en el desarrollo de modelos. Esto incluye:
- Revisar y limpiar los datos de entrenamiento.
- Respetar los términos de uso de otros modelos.
- Implementar controles de calidad rigurosos antes del lanzamiento de productos.
Solo la punta de un iceberg
El caso de DeepSeek V3, que se «autopercibe» como ChatGPT, es un recordatorio de los retos y riesgos asociados a la competencia en el campo de la IA.
No dudamos que en los próximos meses salgan a la luz comportamientos similares, e incluso se hable de un estancamiento en la industria de la IA.
Aunque las redes sociales puedan reírse de la situación, las implicaciones legales, éticas y tecnológicas son serias. La industria de la IA debe abordar estas cuestiones con urgencia para evitar daños mayores a su reputación y credibilidad.