El Test de Turing, propuesto por el matemático y pionero en informática Alan Turing en 1950, es uno de los conceptos más influyentes en el campo de la inteligencia artificial (IA). Este test, que inicialmente parecía una simple idea teórica, ha evolucionado con el tiempo y ha llegado a ser una medida crucial en la evaluación de la inteligencia artificial moderna. En este artículo, exploraremos la importancia histórica y contemporánea del Test de Turing, su evolución, las objeciones que ha enfrentado y cómo hemos llegado a un punto en el que la IA puede superar este test.

La propuesta original: el juego de imitación

Alan Turing, en su artículo «Computing Machinery and Intelligence» publicado en 1950, planteó una pregunta fundamental: «¿Pueden las máquinas pensar?«. En lugar de definir directamente qué significa «pensar», Turing propuso un criterio operativo para evaluar la inteligencia: el «Test de Turing». Este test se basa en un juego de imitación donde un interrogador humano interactúa con dos entidades ocultas, una humana y otra máquina, a través de un terminal de computadora. El objetivo es determinar cuál es cuál. Si la máquina puede engañar al interrogador en más del 30% de las ocasiones después de cinco minutos de interacción, entonces se considera que ha pasado el test.

La motivación de la prueba de Turing

El Test de Turing se basa en la idea de que, si una máquina puede engañar a un ser humano haciéndole creer que está interactuando con otra persona, entonces esa máquina puede considerarse inteligente. Turing estaba interesado en proporcionar una prueba práctica y accesible para medir la inteligencia artificial, alejándose de las definiciones filosóficas y metafísicas abstractas que predominaban en su época. Quería una forma concreta de determinar si una máquina podía pensar, evitando debates interminables sobre la naturaleza de la mente y la conciencia. Este enfoque le permitió esquivar las complejidades filosóficas y centrarse en una evaluación empírica de la inteligencia artificial. Además, Turing buscaba desafiar el escepticismo de sus contemporáneos sobre la posibilidad de que las máquinas pudieran pensar. Al proponer un test concreto y realizable, abrió la puerta a la investigación y el desarrollo en el campo de la IA, sentando las bases para futuras innovaciones.

Predicciones del Test de Turing

En su influyente artículo Alan Turing hizo varias predicciones audaces sobre el futuro de la inteligencia artificial. Turing creía que el progreso en la capacidad de almacenamiento y procesamiento de las computadoras permitiría desarrollar programas lo suficientemente sofisticados como para engañar a los interrogadores humanos en el contexto del Test de Turing. Anticipó que, en unos 50 años (alrededor del año 2000), sería posible programar computadoras con una capacidad de almacenamiento de aproximadamente 109 bits (equivalente a unos 125 megabytes) para que superaran en el “juego de imitación” o Test de Turing. Turing esperaba que, con el tiempo, la sociedad aceptara la idea de que las máquinas podían pensar, desafiando las nociones tradicionales de la inteligencia y la conciencia. Su visión era que, a medida que las máquinas demostraran capacidades cada vez más humanas, la distinción entre la inteligencia humana y la artificial se volvería menos clara y más aceptada. Al llegar el año 2000, muchos argumentaron que las predicciones de Turing habían fallado, ya que las máquinas no podían superar el test con el nivel de sofisticación previsto

Evolución del Test de Turing

Durante las décadas de 1950 a 1990, los sistemas de IA como ELIZA (1966) y PARRY (1972) demostraron capacidades limitadas en la simulación de conversaciones humanas, pero no lograron superar el Test de Turing de manera significativa. Estos sistemas eran capaces de manejar conversaciones en contextos específicos, pero no lograban pasar el test en una conversación general. En las décadas de 1990 y 2000, el desarrollo de redes neuronales y el aprendizaje automático mejoraron las capacidades de los sistemas de IA. Sin embargo, los modelos de esa época todavía enfrentaban desafíos significativos para superar el Test de Turing en su forma completa.

Los grandes modelos de lenguaje en la Inteligencia Artificial y cuándo se superó el test

El avance más notable en la superación del Test de Turing ocurrió con el desarrollo de modelos de lenguaje de gran escala en la década de 2010. Algunos hitos clave incluyen:

  • 2019: OpenAI lanza GPT-2, un modelo de lenguaje basado en la arquitectura de transformadores. Aunque GPT-2 no pasó completamente el Test de Turing en todas las situaciones, mostró capacidades impresionantes en contextos específicos.
  • 2020: GPT-3, también desarrollado por OpenAI, fue un avance significativo en términos de capacidad y fluidez en el lenguaje natural. Con 175 mil millones de parámetros, GPT-3 fue capaz de generar texto coherente y contextualmente relevante, y mostró habilidades que se aproximaban a superar el Test de Turing en muchas interacciones.
  • 2023: GPT-4 logró mejorar aún más la capacidad para manejar conversaciones complejas y prolongadas. GPT-4 demostró una habilidad para superar el Test de Turing en una variedad de escenarios y mostrando un nivel de coherencia y relevancia en las respuestas que a menudo dificultaba la distinción entre una máquina y una persona.

¿Qué tipo de preguntas son difíciles para una IA?

En el Test de Turing, ciertas preguntas o tipos de interacciones pueden revelar la diferencia entre una máquina y un ser humano, especialmente en contextos que involucran habilidades cognitivas complejas, comprensión profunda o intuición emocional. Aquí hay algunos tipos de preguntas y temas que suelen ser difíciles para las máquinas:

Experiencias personales y emociones

Preguntas como “¿Cuál es tu recuerdo más feliz?” y “¿Cómo te sientes cuando estás solo?” son difíciles para una IA, al carecer de experiencias personales y emociones auténticas. Aunque pueden simular respuestas basadas en datos y patrones, no pueden proporcionar respuestas genuinas basadas en experiencias vividas.

Conocimiento contextual o cultural profundo

¿Qué se siente vivir en el pueblo donde naciste?” o “¿Cómo celebras las festividades culturales en tu país?” parecen preguntas sencillas, pues las IAs pueden tener acceso a información general sobre contextos culturales. Sin embargo, una IA puede tener dificultades para ofrecer respuestas matizadas que reflejen una comprensión auténtica de la experiencia cultural o social.

Sentido común o interpretación ambigua

Responder a “¿Por qué la gente encuentra gracioso un chiste sobre la muerte?” y “¿Cómo sabes si alguien está siendo sarcástico?” requiere comprensión de matices sutiles en el lenguaje que pueden ser difíciles para las IAs, ya que dependen de la comprensión del contexto y la interpretación emocional.

Creatividad o pensamiento abstracto

Preguntas como “¿Puedes escribir un poema sobre la naturaleza?” y “¿Conoces alguna idea nueva para una invención?” pueden parecer triviales, pues la IAs actuales pueden generar contenido creativo. Pero a menudo se basan en patrones y ejemplos previos en lugar de creatividad genuina o pensamiento abstracto original.

Juicios morales éticos

Las IAs no tienen una brújula moral ni una capacidad para experimentar dilemas éticos de manera personal. Sus respuestas se basan en reglas preprogramadas o en datos, no en una comprensión profunda de la ética.

Conversación contextual larga

Dejamos lo más difícil para el final. Aunque los modelos avanzados como GPT-4 pueden manejar conversaciones prolongadas, las respuestas consistentes y la adaptación en el contexto de una conversación extensa aún pueden presentar desafíos. Proponer temas como «Cuéntame una historia completa sobre un evento importante en tu vida» o «Dime cómo cambió tu perspectiva sobre un tema específico a lo largo de los años” aún pueden poner en aprietos a algunos chatbots, si es que directamente no te ignora y busca pasar a otro tema.

¿Es realmente preocupante que una IA supere el test de Turing?

¿Es realmente preocupante que una IA supere el test de Turing? El test de Turing es una prueba que consiste en determinar si una inteligencia de máquina es indistinguible de la de un ser humano en su comportamiento. Cuando Eugene Goostman, un chatbot que simulaba a un niño ucraniano de 13 años, obtuvo buenos resultados en el año 2012 en el concurso de la prueba de Turing más grande de la historia, surgieron cuestionamientos sobre la capacidad de una máquina para dar respuestas humanas, fue un gran logro para la época porque un 29% de los jueces concluyó que era humano. Dos años después los ingenieros rusos detrás de Eugene consiguieron un 33% de acierto, por lo que algunos defienden que fue el primer desarrollo en superar el test.

Esto plantea interrogantes sobre el pensamiento humano y si realmente las máquinas pueden pensar como nosotros o pueden hacernos creer que lo hacen a través de este juego de imitación de Turing.

Alternativas al Test de Turing

Aunque hay alternativas al famoso test de Turing, este sigue siendo un referente en la inteligencia artificial.

El test de Marcus, creado por el profesor de psicología Gary Marcus, propone medir cómo interpretan los ordenadores el humor, el sarcasmo o la ironía, que algunos chatbots tienen en la actualidad.

El test de Lovelace 2.0 se centra en la creatividad en la escritura de historias de ficción, poemas u obras de arte, que también vemos que se ha superado hoy en día.

Terry Winograd, otro profesor de psicología, propuso como capacidad diferencial que pudieran entender el contexto subyacente de una frase, en lo que se basan pruebas actuales como el General Languaje Understanding Evaluation.

El Turing en reversa surge en los años 2000 y es lo que inspiró a lo que tomo conocemos hoy como Captchas, esas pruebas que nos piden en muchas webs para demostrar «que no somos una máquina».

Impacto del Test de Turing en la IA

El Test de Turing ha inspirado a investigadores y desarrolladores a diseñar máquinas más sofisticadas que puedan interactuar de manera más efectiva con los humanos, lo que impactado profundamente en el desarrollo de la inteligencia artificial. Aunque ha enfrentado críticas y ha evolucionado con el tiempo, sigue siendo una herramienta valiosa para comprender y medir la capacidad de las máquinas para simular la inteligencia humana. Además, ha llevado a debates cruciales sobre la naturaleza de la inteligencia y la consciencia en las máquinas. Probablemente, es también la razón por la que muchos recuerdan a Alan Turing, un matemático que antes había contribuido al fin de la Segunda Guerra Mundial al romper el cifrado alemán ENIGMA y ayudar al esfuerzo aliado.