Durante años se repitió el mantra: a medida que la inteligencia artificial madurara, su uso sería progresivamente más y más barato… pero la realidad de 2025 está resultando bastante menos idílica: cada vez más desarrolladores y empresas que «compran IA por barriles» —para generar código, resumir documentos o montar sus propios agentes de IA— descubren que sus facturas no solo no están bajando, sino todo lo contrario. Y, en muchos casos, se desbocan. ¿Qué está pasando aquí?
Del precio por token… al número de tokens
Conviene separar dos conceptos: entrenamiento e inferencia. Entrenar los modelos más grandes sigue exigiendo una supercomputación carísima. La inferencia —conseguir respuestas de un modelo ya entrenado— sí se está abaratando de forma sostenida: el coste por token cae de manera pronunciada.
Pero lo que se ahorra por aquí, no compensa el gasto extra que ha introducido una de las nuevas funciones estrella de la IA: los nuevos usos «con razonamiento» disparan la cantidad de tokens que se gastan por tarea.
Por decirlo en términos gastronómicos: entrenar un modelo es como construir un horno industrial, pero pedirle respuestas a un modelo ya entrenado es como hornear cada bizcocho: cada uno sale más barato con el tiempo… con la salvedad de que ahora usas más masa que antes, porque los bizcochos son gigantes y con varias capas.
Traduciendo:
- Ventanas de contexto enormes. En vez de 1–2 páginas, ahora volcamos decenas o cientos.
- Varios pasos internos. El modelo planifica, escribe borradores, se auto-revisa y compara opciones antes de dar la respuesta final.
- Uso de herramientas. Busca en la web, ejecuta código o consulta bases de conocimiento; cada ida y vuelta añade tokens (instrucciones, resultados, resúmenes).
- Ensayo y voto. A veces se generan varias respuestas y se elige la mejor; útil para calidad, caro en tokens.
Así, los modelos hacen mejor su trabajo… a costa de multiplicar el consumo. Resultado: la unidad es barata, pero la cesta que consumimos es cada vez más voluminosa.
¿Cuántos tokens consume cada caso de uso?
Las cifras varían por modelo y configuración, pero el orden de magnitud ayuda a entender las cuentas:
- Chat básico de preguntas y respuestas: ~50 a 500 tokens.
- Resumen breve de un documento: ~200 a 6.000.
- Asistencia de código básica: ~500 a 2.000.
- Escritura de código complejo: ~20.000 a 100.000+.
- Análisis jurídico de documentos: ~75.000 a 250.000+.
- Agentes multi-paso: ~100.000 a 1.000.000+.
Con estos volúmenes, no sorprende que plataformas que prueban muchos modelos constaten que «la carrera por la respuesta más inteligente» se ha convertido en garantía de gastos extra.
Las empresas hacen cuentas
Las consecuencias ya son visibles: Notion —un ejemplo representativo del SaaS productivo— explica que, frente a márgenes cercanos al 90% de hace dos años, ahora alrededor de 10 puntos se van en costes de IA que sustentan sus nuevas funciones. Hace unas semanas, salía a la luz un estudio del MIT que afirmaba que el 95% de las empresas que ofrecen apps de IA generativa no les están sacando rentabilidad.
Pero las que peor lo están pasando son las startups que venden aplicaciones de vibe coding: cambios de precios recientes han destapado lo fácil que es que un usuario queme en días los créditos de todo un mes cuando sube la complejidad de sus peticiones.
Vía | WSJ
Imagen | Marcos Merino emdiante IA
–
La noticia
La IA de última generación sale más cara que nunca, aunque baje precios. El problema es que piensa más que antes
fue publicada originalmente en
Genbeta
por
Marcos Merino
.