Las nuevas capacidades multimodales de o3 y o4-mini son impresionantes, como demuestra la habilidad del primero para geolocalizar una foto que le indiquemos. Para OpenAI no parece ser suficiente, pues un par de meses después de su lanzamiento han lanzado o3-pro, a la espera de una nueva generación razonadora.
Si o3 se basó en integrar más herramientas en la cadena de pensamiento de su función razonadora, con o3-pro potencian esa dirección, destacando en pruebas con examinadores humanos. En ellas, un 64,9% prefirieron o3-pro frente a o3 en análisis científico, un 66,7% en escritura personal, un 62,7% en programación y un 64,3% en análisis de datos.
Hay que recordar que todas estas cifras son compartidas por OpenAI, por lo que habrá que esperar a análisis externos, pero de momento, siempre guardan relación con la realidad una vez el modelo está lanzado (no así en o3 y en Sora cuando fueron mostrados por primera vez, pues prometieron cifras más altas y vídeos de más calidad que los que luego lograron en el modelo comercial). Para mejorar los resultados de o3, OpenAI ha recurrido a una etapa extra de entrenamiento por refuerzo
o3 Pro llega sin compararse directamtente con Gemini 2.5 Pro
Porcentajes de victoria de o3 pro sobre el o3 estándar
En el sentido de lo que hablábamos, o3 Pro ha llegado prometiendo saltos importantes respecto a o3. Desde OpenAI citan un mejora de tres puntos porcentuales en la prueba de matemáticas AIME 2024 y de preguntas científicas GPQA Diamond, con una ventaja del 9% en Codeforces, una prueba de programación.
Su resultado absoluto en esta prueba es de 2748 puntos de ELO, y ahora sí, supera los 2727 puntos que OpenAI prometió para o3 en diciembre, meses antes de su lanzamiento. Finalmente, o3 se quedó en 2517 puntos, algo que decepcionó en el lanzamiento. Con estos resultados, o3 pro ocuparía la posición 159 de la prueba hecha por programadores humanos, mientras que el resultado de o3 caería hasta el pusto 400.
Para lograrlo, eso sí, han tenido que recurrir a un modelo más pesado y lento que o1-pro, por lo que OpenAI lo recomienda solo cuando importe fiabilidad sobre velocidad y merece la pena esperar algunos minutos.
Así, a falta de que desarrolladores expertos lo prueben, o3 pro se sitúa como un titán de la programación, como también han demostrado ser las últimas versiones de Gemini 2.5 Pro o de Claude 4. El problema es que, a diferencia de lo que ocurre en los lanzamientos de Google o Anthropic, OpenAI no ofrece una tabla de benchmarks donde se compare con la competencia.
Tampoco ellas dan cifras directamente comparables a las que hoy ha ofrecido la compañía de Sam Altman, que para la prueba de matemáticas ha ofrecido números de la prueba AIME 2024, mientras que Claude y Anthropic ya usan la versión de 2025. En este sentido, tampoco OpenAI ha hecho públicas cifras de pruebas realizadas por terceros como las de LMArena (que por Meta sabemos que pueden tener letra pequeña).
Resultados en pruebas de matemáticas, ciencias y programación.
En cuanto a su disponibilidad, no hay sorpresas. o3 Pro llegará desde hoy a los usuarios que paguen los 200 euros que cuesta la suscripción Pro de ChatGPT, así como a la API de desarrolladores. Los usuarios de empresas y educación lo recibirán dentro de una semana.
En cuanto a coste algo muy interesante es que OpenAI ha rebajado un 80% el precio de o3 respecto a lo que costaba hasta ahora, y ahora es un 20% más barato que GPT-4o. o3 pro, por su parte, es un 87% más barato que o1 pro, el modelo al que llega a suceder en tareas avanzadas. Es impresionante el ritmo al que se están abaratando las inteligencias artificiales más avanzadas. Los precios de Google, eso sí, siguen siendo imbatibles.
Imagen | Marcos Merino con IA
Más información | OpenAI
–
La noticia
Gemini y Claude estaban superando a ChatGPT, así que OpenAI acaba de responder con o3 pro: promete otro salto en programación
fue publicada originalmente en
Genbeta
por
Antonio Sabán
.