La IA alucina. Da respuestas que no son ciertas. Inventa, y además lo hace con una soltura sencillamente asombrosa. Las respuestas parecen coherentes gracias a esa aparente coherencia y seguridad, pero lo cierto es que eso puede acabar provocando problemas inquietantes. Por ejemplo, que te recomiende poner pegamento en la pizza para que el queso quede bien pegado.
Las alucinaciones no son un error místico. En OpenAI conocen bien el problema, y acaban de publicar un informe en el cual analizan las causas de las alucinaciones. Según el estudio, estas surgen por «presiones estadísticas» en las etapas de entrenamiento y evaluación.
Premio por adivinar. El problema, explican, es que en esos procedimientos se está premiando que la IA «adivine» en lugar de admitir que puede haber incertidumbre en las respuestas, «como cuando un estudiante se enfrenta a una pregunta difícil en un examen» y responde a alguna de las opciones disponibles para ver si tiene suerte y acierta. En OpenAI señalan cómo la IA hace algo parecido en esos casos, y en el entrenamiento se la anima a contestar adivinando la respuesta en lugar de contestar con un sencillo «no lo sé».
Malditas probabilidades. En la fase de pre-entrenamiento los modelos aprenden la distribución del lenguaje a partir de un gran corpus de texto. Y es ahí donde los autores destacan que aunque los datos de origen estén completamente libres de errores, las técnicas estadísticas que se utilizan provocan que el modelo pueda cometer errores. La generación de un texto válido es mucho más compleja que responder a una simple pregunta con un sí o un no como «¿es válida esta salida?».
Predecir la palabra tiene trampa. Los modelos de lenguaje aprenden a «hablar» con el preentrenamiento, en el que aprenden a predecir la próxima palabra de una frase gracias a la ingesta de enormes cantidades de texto. Aquí no hay etiquetas «verdadero/falso» en cada frase con la que se entrena, solo «ejemplos positivos» (válidos) del lenguaje. Eso hace más difícil evitar las alucinaciones, pero en OpenAI creen tener una posible respuesta que de hecho ya han aplicado en GPT-5.
Un nuevo entrenamiento. Para mitigar el problema en OpenAI proponen introducir una clasificación binaria que ellos llaman «Is-It-Valid» (IIV, «¿Es válida?»), que entrena a un modelo para distinguir entre respuestas válidas y erróneas.
GPT-5 es algo más humilde. Cuando hay una respuesta correcta, los modelos de OpenAI clasifican las respuestas que da el modelo en tres grupos: correctas, errores, y abstenciones, que reflejan cierta «humildad». Según sus datos, GPT-5 ha mejorado en cuanto a la tasa de alucinaciones porque en sus pruebas se abstiene mucho más (52%) que o4-mini (1%), por ejemplo. Aunque o4-mini es ligeramente mejor en respuestas correctas, es mucho peor en tasa de errores.
Los benchmarks premian los aciertos. En el estudio se indica además cómo los benchmarks y las tarjetas técnicas de los modelos (model cards) actuales se centran totalmente en la tasa de aciertos. De ese modo, aunque los modelos de IA efectivamente mejoran y aciertan cada vez más, siguen alucinando y no hay apenas datos sobre esas tasas de alucinaciones que deberían sustituirse por un simple «no lo sé».
Solución fácil. Pero como ocurre en los exámenes tipo test, hay una forma de evitar que los alumnos jueguen a la quiniela: penalizar los errores más que la incertidumbre. En esos exámenes contestar bien puede valer un punto pero contestar mal puede restar 0,5 puntos y no contestar valdría cero puntos. Si no sabes la respuesta, adivinar te puede salir muy caro. Pues con los modelos de IA, igual.
En Xataka | Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude
–
La noticia
OpenAI cree haber descubierto porqué las IAs alucinan: no saben decir “no lo sé”
fue publicada originalmente en
Xataka
por
Javier Pastor
.