Un equipo de investigación internacional liderado por la URV ha analizado las capacidades de siete modelos de inteligencia artificial (IA) en la comprensión del lenguaje y las ha comparado con las de los humanos. Los resultados muestran que, a pesar de su éxito en algunas tareas específicas, los modelos no alcanzan un nivel comparable al de las personas en pruebas simples de comprensión de textos. “La capacidad de los modelos para realizar tareas complejas no garantiza que sean competentes en tareas sencillas”, advierten.
Los modelos de lenguaje extensivo (MLE) son redes neuronales diseñadas para generar textos de forma autónoma a partir de una solicitud del usuario. Están especializados en tareas como la generación de respuestas a preguntas generales, la traducción de textos, la resolución de problemas o la síntesis de contenidos. Se afirma con frecuencia que estos modelos tienen capacidades similares a las humanas, en términos de comprensión y razonamiento, pero los resultados de la investigación liderada por Vittoria Dentella, investigadora del Grupo de Investigación en Lengua y Lingüística de la URV, evidencian sus limitaciones: “Los MLE no comprenden realmente el lenguaje; simplemente aprovechan los patrones estadísticos presentes en sus datos de entrenamiento”.
Las redes neuronales son modelos computacionales que emulan las estructuras neuronales biológicas del cerebro. Están formadas por una serie de nodos conectados entre sí, llamados neuronas artificiales. Cada nodo recibe información de las otras neuronas, la procesa y la envía nuevamente. Desde fuera, una red neuronal acepta información de entrada, la procesa y devuelve un resultado. Los investigadores entrenan la red con información conocida para que, de forma automática, aprenda a tratar los datos y ofrecer la respuesta esperada. Una vez entrenadas, se utilizan en tareas de predicción, clasificación y filtrado de datos, reconocimiento de patrones, etc.
Para comparar el rendimiento en la comprensión de textos entre humanos y MLE, los investigadores formularon 40 preguntas a siete modelos de IA—Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral—utilizando estructuras gramaticales simples y verbos de uso frecuente. Por otro lado, se sometió a un grupo de 400 personas, todos hablantes nativos de inglés, a las mismas preguntas y se comparó la precisión de sus respuestas con las de los MLE. Cada pregunta se repitió tres veces para evaluar la consistencia de las respuestas.
La media de aciertos de los humanos fue del 89%, bastante superior a la de los modelos de IA, siendo el mejor de ellos (ChatGPT-4) el que ofreció un 83% de respuestas correctas. Los resultados muestran una gran diferencia en el rendimiento de las tecnologías de comprensión de textos: excepto ChatGPT-4, ninguno de los MLE alcanzó una precisión superior al 70%. Los humanos también fueron más consistentes ante las preguntas repetidas, manteniendo las respuestas correctas en un 87% de los casos. Los modelos de comprensión de textos, en cambio, mostraron una estabilidad que osciló entre el 66% y el 83%.
“Aunque los MLE pueden generar textos gramaticalmente correctos y aparentemente coherentes, los resultados de este estudio sugieren que, en el fondo, no entienden el significado del lenguaje de la manera en que lo hace un humano”, explica Dentella. En realidad, los modelos de lenguaje extensivos no interpretan el significado como lo haría una persona—integrando elementos semánticos, gramaticales, pragmáticos y contextuales. Funcionan identificando patrones en los textos y comparándolos con los que han sido entrenados, utilizando algoritmos predictivos basados en estadísticas. Por lo tanto, la apariencia de comprensión humana es una ilusión.
Esto se traduce en dificultades para mantener un criterio estable en las respuestas, especialmente cuando se somete el modelo a preguntas repetidas. También explica por qué los modelos a veces ofrecen respuestas incorrectas, que denotan una falta de comprensión del contexto o del significado de un concepto. Es por ello que, tal como advierte Dentella, esta tecnología no es aún lo suficientemente confiable para aplicaciones críticas: “Nuestra investigación demuestra que las capacidades de los MLE para realizar tareas complejas no garantizan que sean competentes en tareas sencillas, que a menudo requieren una comprensión real del lenguaje”.