¿Por qué suben las facturas de IA si el precio por token está bajando?

Porque los tokens más baratos invitan a mucho más uso de tokens. Los modelos de razonamiento y los sistemas agénticos reenvían contexto y recorren muchos pasos, consumiendo varias veces más tokens por tarea que una simple llamada de chatbot. El consumo de tokens crece más rápido de lo que baja el precio por token. Es el efecto Jevons aplicado a la IA.

¿Cómo se calcula el coste unitario de la IA?

Trátela como una actividad. Costee la capacidad de GPU a su tasa de capacidad práctica, el coste total del recurso dividido por la capacidad que entrega de forma realista. Use el token como cost driver, con el precio por token como tasa. Escriba el proceso asistido por IA como una ecuación de tiempo que combine tokens, GPU-segundos y minutos de revisión humana, y atribuya el resultado al cliente, producto o proceso que lo desencadenó. Es el Time-Driven Activity-Based Costing aplicado a la IA.

¿Es rentable nuestra IA?

Solo puede responder una vez que tenga un coste unitario. Con el coste de un resultado de IA establecido, lo enfrenta al valor que ese resultado crea y ordena clientes, productos o funciones del más al menos rentable de servir con IA. El resultado es una curva de la ballena para la IA: un núcleo rentable, un medio plano, y una cola donde la IA devuelve margen. La mayoría de las organizaciones nunca la ha dibujado.

¿Qué es el AI FinOps, y basta?

El AI FinOps, a veces llamado tokenomics, es la disciplina de medir y atribuir el gasto de IA, y es un avance real en visibilidad. No basta por sí solo porque el showback por etiquetas dice dónde cayó el coste, no por qué ocurrió ni cuánta capacidad quedó sin usar. El costeo basado en actividades aporta la lógica de asignación que falta y hace visible el coste de capacidad no utilizada.

Análisis · El coste de la IA

El verdadero coste de la IA es un coste unitario. Casi nadie lo mide.

El coste de la IA en una empresa no es la factura de la API. Es el coste total de producir un resultado de IA útil, una vez que se cuentan la inferencia, la capacidad de las GPU que hay detrás, los datos y la integración, la revisión humana, los reintentos y la gobernanza. El precio por token ha caído unas diez veces al año, pero las facturas de IA de las empresas están subiendo, porque los modelos de razonamiento y los agentes consumen muchos más tokens por tarea. Las empresas que ganarán la próxima fase son las que sepan responder a una pregunta engañosamente simple: ¿cuánto cuesta de verdad una unidad de nuestra IA, y es rentable servirla?

El coste de la IA, en una línea

Coste de un resultado de IA = tokens × precio por token + GPU-segundos × tasa de capacidad práctica + minutos de revisión humana × coste cargado + sobrecoste de reintentos y gobernanza.
Contribución neta = valor del resultado − ese coste.

Dónde está el terreno, en 2025-2026

95%

de las organizaciones no reportan impacto medible en el P&L de la IA generativa, seis meses después del piloto.

MIT NANDA, 2025

~10×

más barato por token, al año, a calidad constante — pero la factura total sigue subiendo a medida que las tareas consumen más tokens.

a16z LLMflation, 2024

>3 $

coste previsto por resolución de IA en atención al cliente para 2030, por encima de muchos agentes humanos offshore.

Gartner, 2026

Las cifras se atribuyen a su fuente y reflejan el estado de la información en 2025-2026. La cifra del MIT mide organizaciones sin impacto medible en el P&L, no una tasa de fallo técnico; es investigación preliminar y debe citarse como tal.

Hay una contradicción en el centro de la conversación sobre la IA. Los estudios patrocinados por proveedores reportan varios dólares de retorno por cada dólar gastado, mientras que la investigación independiente concluye que la mayoría de las organizaciones no puede señalar ningún efecto en sus resultados. Ambas cosas pueden ser ciertas a la vez, por la misma razón: el retorno de la IA se afirma mucho y se mide poco. Cuando nadie ha costeado un solo resultado de IA, nadie puede decir si compensa. Esta brecha no es un problema de tecnología. Es un problema de contabilidad de costes, y es justo el que existimos para resolver.

Por qué la factura sube mientras el token se abarata

El hecho peor entendido sobre el coste de la IA es que tokens más baratos no significan facturas menores. El precio de generar un token de una calidad dada se ha desplomado, una tendencia que a16z llamó LLMflation. Pero los tokens más baratos invitan a un uso mucho más intensivo de tokens. Un flujo de trabajo lineal simple de 2023 podía costar unos céntimos por interacción; un sistema agéntico orquestado en 2026, con herramientas, bucles de razonamiento y contexto reenviado, puede costar más de un dólar por la misma interacción, unas treinta veces más según una estimación de EY. Es el clásico efecto Jevons: cuando un recurso se abarata por unidad, el consumo total puede crecer más rápido de lo que baja el precio. El resultado es que las funciones de IA con precio fijo pasan discretamente a dar pérdidas con los usuarios intensivos, razón por la que los proveedores de herramientas de programación pasaron 2025 abandonando los planes fijos.

EL COSTE DE LA IA ES UN ICEBERG

Ilustrativo. El precio de la API por token es la punta visible. Bajo la superficie están el coste de capacidad de las GPU (buena parte a menudo inactiva), la preparación de datos y la integración, la revisión humana que valida la salida de la IA, los reintentos y la gobernanza. Una cuenta de resultados estándar no muestra nada de esto como coste de la IA.

El método: tratar la IA como cualquier otra capacidad

La contabilidad de costes ya ha resuelto un problema con exactamente la misma forma que el coste de la IA. Una GPU que alquilamos por horas pero usamos solo una fracción del tiempo tiene la misma forma que una máquina o un equipo que pagamos esté ocupado o no. El Time-Driven Activity-Based Costing, el método desarrollado por Kaplan y Anderson, costea un recurso a su tasa de capacidad práctica: el coste total de suministrar el recurso dividido por la capacidad que puede entregar de forma realista, con la parte no utilizada hecha visible en lugar de oculta en una tasa inflada. Los datos del sector sitúan la utilización media de GPU empresarial en cifras de un solo dígito, lo que significa que la mayor parte de la factura de GPU es el coste de capacidad no utilizada, una partida que el TDABC se diseñó para revelar.

A partir de ahí, lo demás se sigue. El token pasa a ser el cost driver, y el precio por token su tasa de driver. Un proceso asistido por IA pasa a ser una actividad con una ecuación de tiempo corta que combina unidades: tantos tokens, tantos GPU-segundos, tantos minutos de revisión humana. Sume esos costes y podrá atribuir el coste de la IA a un proceso, a un producto, a un cliente o a un caso de uso, exactamente como el costeo basado en actividades ha atribuido los costes indirectos durante treinta años. El mundo FinOps está redescubriendo esto bajo nombres nuevos, tokenomics y showback, pero el etiquetado dice dónde cayó el coste, no por qué ocurrió ni qué capacidad quedó inactiva. Ese rigor es lo que añade la contabilidad de costes clásica.

El showback dice dónde cayó el coste de la IA. El costeo basado en actividades dice por qué ocurrió, y qué parte está pagando sin usar.

Preguntas frecuentes

¿Cuánto cuesta de verdad la IA a una empresa?: Más de lo que sugiere la línea de la API o de la suscripción. El verdadero coste de un resultado de IA incluye los tokens consumidos, el coste de capacidad de las GPU que ejecutan el modelo (buena parte a menudo inactiva), la preparación de datos y la integración, la revisión humana necesaria para confiar en la salida, los reintentos cuando el modelo se equivoca, y la gobernanza. Los estudios de coste total de propiedad sitúan la cifra completa muy por encima del precio visible de la API; la única forma de saber su número es costear un resultado de principio a fin.
¿Por qué suben las facturas de IA si el precio por token está bajando?: Porque los tokens más baratos invitan a mucho más uso de tokens. Los modelos de razonamiento y los sistemas agénticos reenvían contexto y recorren muchos pasos, consumiendo varias veces más tokens por tarea que una simple llamada de chatbot. El consumo de tokens crece más rápido de lo que baja el precio por token, así que la factura total sube aunque cada token se abarate. Es el efecto Jevons aplicado a la IA.
¿Cómo se calcula el coste unitario de la IA?: Trátela como una actividad. Costee la capacidad de GPU a su tasa de capacidad práctica, el coste total del recurso dividido por la capacidad que entrega de forma realista. Use el token como cost driver, con el precio por token como tasa. Escriba el proceso asistido por IA como una ecuación de tiempo que combine tokens, GPU-segundos y minutos de revisión humana, y luego atribuya el resultado al cliente, producto o proceso que lo desencadenó. Es el Time-Driven Activity-Based Costing aplicado a la IA.
¿Es rentable nuestra IA?: Solo puede responder a eso una vez que tenga un coste unitario. Con el coste de un resultado de IA establecido, lo enfrenta al valor que ese resultado crea y ordena clientes, productos o funciones del más al menos rentable de servir con IA. El resultado es una curva de la ballena para la IA: un núcleo rentable, un medio plano, y una cola donde la IA devuelve margen discretamente. La mayoría de las organizaciones nunca la ha dibujado.
¿Qué es el AI FinOps, y basta?: El AI FinOps, a veces llamado tokenomics, es la disciplina de medir y atribuir el gasto de IA, y es un avance real en visibilidad. No basta por sí solo porque el showback por etiquetas dice dónde cayó el coste, no por qué ocurrió ni cuánta capacidad quedó sin usar. El costeo basado en actividades aporta la lógica de asignación que falta y hace visible el coste de capacidad no utilizada, y eso es lo que convierte el seguimiento del gasto en gestión de la rentabilidad.

Seguir explorando

Descubra el coste unitario real de su IA.

El Profit Check muestra dónde se esconde su coste de servir, IA incluida, en cinco minutos, sin subir datos.

Hacer el Profit Check

El verdadero coste de la IA es un coste unitario. Casi nadie lo mide.

Preguntas frecuentes

Análisis de coste de servir

La curva de la ballena de la rentabilidad

Modelos de rentabilidad en los que confiar

Descubra el coste unitario real de su IA.

Sigue explorando

Curva de la Ballena

Coste de Servir

Caso de Estudio: Distribuidor NZ

¿No sabe dónde encaja?