Sora 2 acaba de superar uno de los test más difíciles para una IA: el del vaso del agua. Y es más importante de lo que parece

Sora 2 acaba de superar uno de los test más difíciles para una IA: el del vaso del agua. Y es más importante de lo que parece

Coloca un vaso transparente delante de un dibujo (por ejemplo, una flecha) y observar cómo la imagen se distorsiona o incluso se invierte. Este efecto ocurre porque la luz cambia de dirección al atravesar distintos medios (aire, vidrio y agua): se trata del fenómeno conocido como ‘refracción’.

Aunque para nosotros es un hecho cotidiano, reproducirlo correctamente constituye un desafío considerable para una inteligencia artificial generativa de vídeo. No basta con generar un vaso estéticamente realista: el modelo debe simular la interacción precisa entre luz, materiales transparentes y objetos de fondo, manteniendo coherencia en cada fotograma.

Por eso, desde hace unos meses se somete a las nuevas IAs de generación de vídeo al ‘glass refraction test’. La noticia es que Sora 2, el modelo de generación de vídeo que OpenAI lanzó ayer, ha conseguido superar esta prueba con resultados sorprendentes:


Pulsa para ver el vídeo

Esto ha generado entusiasmo entre investigadores y aficionados a la IA: no por el simple truco visual, sino por ser un indicador de que los modelos empiezan a capturar fenómenos físicos complejos del mundo real (lo que ya prometía, y claramente incumplió, la primera versión de Sora).

¿Por qué es tan difícil para una IA?

A diferencia de un motor gráfico de videojuegos, que incorpora tecnologías como ray tracing y simulaciones físicas explícitas, un modelo generativo como Sora debe aprender a partir de millones de videos y fotos. Lo que produce no se basa en reglas físicas programadas, sino en meros patrones estadísticos.

Eso significa que:

  1. Debe ‘aprender’ la física sin que nadie se la enseñe directamente. No tiene ecuaciones de óptica en su interior; deduce que «cuando hay un vaso y un objeto detrás, suele verse deformado de una determinada manera».
  2. Escasez de ejemplos en los datos. Aunque haya muchos vasos en los datasets, no es tan común que los videos muestren explícitamente flechas invertidas o experimentos de refracción. El modelo debe generalizar reglas, no memorizar.
  3. Coherencia temporal. En vídeo, cada frame debe corresponder con el anterior. Si alguien mueve el vaso, la deformación de la flecha debe actualizarse en tiempo real. Una mínima inconsistencia se nota de inmediato.

Superar este test implica que el modelo no solo es capaz de generar imágenes convincentes, sino que internaliza ciertas regularidades físicas del mundo real.

La importancia simbólica del test

El ‘glass refraction test’ es casi un mini-benchmark casero. Se ha usado como «prueba del algodón» para evaluar hasta qué punto una IA es capaz de manejar situaciones donde la física se hace visible a simple vista. Y es que, si el agua no se curva correctamente dentro del cristal, algo ‘chirría’ en el vídeo.

En ese sentido, este experimento se ha convertido en un símbolo de realismo físico en IA generativa. Que Sora 2 lo supere no significa que “entienda la óptica” en el sentido humano, pero sí que logra imitarla con un grado de fidelidad muy alto.

Esto abre varias posibilidades, tanto en el campo de la producción audiovisual (efectos visuales más realistas sin necesidad de motores gráficos complejos) como de, por ejemplo, el entrenamiento de robots (vídeos sintéticos más fieles a la realidad podrían servir para entrenar agentes que interactúan con el mundo).

Otros ‘sencillos’ «tests de estrés» visuales para la IA

El vaso de agua no es el único reto que se usa como medida de progreso. Existen varias categorías de pruebas que ponen contra las cuerdas a las inteligencias artificiales generativas:

  1. Sombras realistas: Un objeto iluminado debe proyectar sombras coherentes en forma, dirección y difuminado, pero muchos modelos fallan creando sombras flotantes, mal orientadas o con bordes imposibles.
  2. Espejos y reflejos: Los reflejos en superficies metálicas o acuáticas requieren consistencia geométrica. Un fallo común es que los espejos ‘alucinen’ escenas distintas a la real.
  3. Líquidos y derrames: Verter agua en un vaso, y que el líquido siga la gravedad y adopte formas coherentes, es extremadamente difícil. Muchos modelos producen agua ‘gelatinosa’ o que responde a movimientos físicamente imposibles.
  4. Física de objetos en movimiento: Un balón que rebota, una torre que se cae, piezas que colisionan… sin un modelo físico interno, muchas IA producen trayectorias imposibles.

Estos retos se parecen a los benchmarks académicos de física intuitiva, como PIQA, IntPhys o PHYRE, que evalúan la capacidad de un sistema para razonar sobre el mundo real.

Imagen | Marcos Merino mediante IA

En Genbeta | Pensábamos que la IA era muy buena en matemáticas: este nuevo test acaba de demostrar que no es así. Nosotros tampoco lo somos 


La noticia

Sora 2 acaba de superar uno de los test más difíciles para una IA: el del vaso del agua. Y es más importante de lo que parece

fue publicada originalmente en

Genbeta

por
Marcos Merino

.

Salir de la versión móvil