OpenAI cree tener la clave para poner fin a las «alucinaciones» de la IA con un nuevo enfoque de entrenamiento

La industria de la inteligencia artificial se enfrenta a uno de sus mayores desafíos: las «alucinaciones» de los modelos, un fenómeno por el cual las IAs generan información falsa o incorrecta con una sorprendente coherencia. Sin embargo, OpenAI, la compañía detrás de GPT, afirma haber encontrado una solución prometedora, que ya estaría implementada en su reciente GPT-5.

De qué hablamos cuándo hablamos de «alucinaciones» de la IA

Antes de adentrarnos en la solución, es crucial entender qué son estas «alucinaciones». En el contexto de la inteligencia artificial, una alucinación ocurre cuando un modelo de lenguaje genera una respuesta que es completamente falsa, carece de sentido o no está basada en datos reales, pero la presenta con una gran confianza y coherencia. Esto puede llevar a situaciones desde recomendaciones absurdas, como «poner pegamento en la pizza para que el queso se pegue», hasta información errónea en contextos más críticos, socavando la confianza en estas herramientas.

Según un informe reciente de OpenAI, la raíz del problema no es mística, sino profundamente estadística. Las alucinaciones surgen de «presiones estadísticas» durante las etapas de entrenamiento y evaluación de los modelos. Los sistemas actuales premian a la IA por «adivinar» una respuesta en lugar de admitir la incertidumbre. Es como un estudiante que, ante una pregunta difícil, siempre responde algo para intentar acertar, sin importar si realmente sabe la respuesta. Los modelos aprenden a predecir la siguiente palabra basándose en un vasto corpus de texto, pero sin un mecanismo explícito para etiquetar la verdad o falsedad de la información generada.

Un cambio de paradigma en el entrenamiento

La propuesta de OpenAI para mitigar este problema es innovadora. La compañía ha introducido una clasificación binaria que denomina «Is-It-Valid» ( «¿Es válida?»). Este nuevo enfoque entrena al modelo para que distinga de forma explícita entre respuestas correctas y erróneas, en lugar de simplemente generar texto plausible. En este sistema, las respuestas se categorizan en tres grupos: correctas, errores y «abstenciones», estas últimas reflejando una «humildad» del modelo al admitir que no sabe la respuesta.

Los resultados preliminares son alentadores. OpenAI ha observado que GPT-5, el modelo más reciente de la compañía, ha mejorado significativamente en la reducción de alucinaciones. En sus pruebas, GPT-5 muestra una notable tasa de abstención del 52%, en comparación con apenas un 1% en modelos anteriores como o4-mini. Esto significa que GPT-5 es mucho más propenso a reconocer cuándo no sabe una respuesta y, por lo tanto, a abstenerse de «alucinar». Aunque otros modelos puedan tener tasas de respuestas correctas marginalmente superiores, su mayor propensión a los errores los hace menos fiables a largo plazo.

El estudio también critica cómo los benchmarks actuales y las «model cards» de la IA se centran casi exclusivamente en la tasa de aciertos, ignorando la importancia de medir y penalizar las alucinaciones o la incertidumbre. OpenAI sugiere que, al igual que en los exámenes donde se penalizan las respuestas incorrectas para disuadir la adivinación, los sistemas de entrenamiento y evaluación de la IA deben evolucionar para premiar la precisión y la honestidad por encima de la mera emisión de una respuesta.

Este nuevo enfoque de OpenAI representa un paso crucial hacia una inteligencia artificial más fiable y digna de confianza, abordando uno de los mayores obstáculos para su adopción generalizada en aplicaciones críticas.

Salir de la versión móvil