Un equipo internacional de investigadores comprobó que la inteligencia artificial (IA) sigue cometiendo errores al responder preguntas que requieren razonamiento conceptual profundo, lo que demuestra que todavía no alcanza la capacidad humana en tareas académicas complejas.
Según la Universidad de Granada (UGR), la investigación, llamada ‘Humanity’s Last Exam’, consistió en un «gran examen» diseñado por 1.100 científicos de distintas disciplinas para evaluar si los grandes modelos de lenguaje (LLM) podían resolver problemas que no se limitan a búsquedas de información en internet.
Cada pregunta tenía una solución inequívoca y verificable, pero exigía comprensión conceptual profunda. Los resultados mostraron que incluso los modelos más avanzados fallan en conceptos científicos complejos y reproducen errores presentes en manuales clásicos.
Por ejemplo, la IA falló en preguntas relacionadas con la paradoja Einstein-Podolsky-Rosen, al asumir una realidad objetiva que contradice principios cuánticos, y en el experimento Stern-Gerlach, repitiendo un error factual presente en numerosos libros de física.
Aun así, los investigadores destacaron que los sistemas actuales ya realizan análisis reflexivos complejos, más allá de la simple búsqueda de información. La profesora María Cruz Boscá, de la UGR, señaló que el verdadero avance se dará cuando la IA pueda formular nuevas preguntas y ofrecer respuestas a incógnitas científicas que los humanos aún no hemos resuelto.


