TDABC para la IA: tratar tokens, GPU y agentes como actividades
El coste de la IA parece nuevo, pero su forma es antigua. Una GPU que paga esté o no ocupada tiene la misma forma que una máquina o un equipo con tiempo inactivo. Un token consumido es un cost driver. Un proceso asistido por IA es una actividad que consume una mezcla de recursos. El Time-Driven Activity-Based Costing, desarrollado por Kaplan y Anderson, se hizo exactamente para esto: costear un recurso a su tasa de capacidad práctica, mover el coste con una cantidad medible, y escribir el proceso como una ecuación de tiempo corta. Aplicado a la IA, convierte una factura de cloud agregada en un coste unitario que puede defender.
Empiece por la GPU como recurso de capacidad. Su coste verdadero no es solo la etiqueta del alquiler; es el coste total de suministrarla, el hardware amortizado, más energía, refrigeración y la operación alrededor. Divida ese coste total por la capacidad práctica que la GPU puede entregar de forma realista, alrededor del 80 al 85 por ciento de la teórica, no el 100. El resultado es una tasa de coste de capacidad práctica por GPU-segundo. Los datos del sector sitúan la utilización media de GPU empresarial en cifras de un solo dígito, lo que significa que la mayor parte de lo que se paga es el coste de capacidad no utilizada. El TDABC hace visible esa partida en lugar de ocultarla en una tasa agregada inflada.
En el costeo basado en actividades, un cost driver es la cantidad medible que causa el coste. Para la IA, el token es el driver natural, con el precio por token como tasa, y la llamada o petición como driver secundario. Los tokens de salida cuestan más que los de entrada porque se generan uno a uno, así que la tasa tiene dos partes. La comunidad FinOps llama ahora al token la unidad atómica de la IA; en términos de contabilidad de costes es simplemente el cost driver de la actividad, y nombrarlo así permite tratar la IA como cualquier otra actividad.
Una ecuación de tiempo TDABC expresa cuánto de cada recurso consume una transacción, ajustando a lo que hace que las transacciones difieran. Para un proceso asistido por IA, la ecuación mezcla unidades: tantos tokens de entrada y salida, tantos GPU-segundos, tantos minutos de revisión humana, más una provisión para reintentos cuando el modelo se equivoca. Esa única línea es el coste de un resultado. Sume los resultados y podrá atribuir el coste de la IA a un proceso, un producto, un cliente o un caso de uso, exactamente como el ABC ha atribuido los costes indirectos durante treinta años.
Cuando cada resultado de IA lleva un coste real, enfréntelo al valor que crea y ordene del más al menos rentable de servir con IA. El patrón familiar regresa: un núcleo rentable, un medio plano, y una cola donde la IA devuelve margen discretamente. Esa imagen ordenada es la curva de la ballena, ahora dibujada para la IA. Es donde empiezan las decisiones: qué casos de uso escalar, cuáles reprecificar, y cuáles detener.
LA ECUACIÓN DE TIEMPO DE LA IA, VISUALIZADA
Ilustrativo. Un resultado de IA descompuesto en su consumo de recursos: tokens de entrada y salida, GPU-segundos a la tasa de capacidad práctica, minutos de revisión humana, y una provisión de reintentos. La suma es el coste unitario.
El FinOps dice dónde cayó el coste de la IA. El TDABC dice por qué ocurrió, y cuánta capacidad pagó sin usar.
Preguntas frecuentes
- ¿Se puede aplicar el costeo basado en actividades a la IA?
- Sí, y encaja inusualmente bien. El coste de la IA tiene la misma estructura para la que se hizo el ABC: un recurso de capacidad (la GPU) que paga esté ocupado o inactivo, un cost driver medible (el token o la llamada), y procesos que consumen una mezcla de recursos. El Time-Driven Activity-Based Costing en particular maneja la IA de forma limpia, porque costea la capacidad a una tasa de capacidad práctica y expresa cada proceso como una ecuación de tiempo.
- ¿Cuál es el cost driver de la IA?
- El token es el cost driver primario, con el precio por token como tasa; la llamada o petición es un driver secundario. Los tokens de salida tienen una tasa más alta que los de entrada porque se generan secuencialmente. Tratar el token como cost driver es lo que permite costear la IA con la misma lógica basada en actividades usada para cualquier otro recurso.
- ¿Cómo trata el TDABC el coste de GPU inactiva?
- Directamente. El TDABC costea un recurso a su tasa de capacidad práctica, el coste total del recurso dividido por la capacidad que entrega de forma realista, y reporta la parte no utilizada como coste de capacidad no utilizada. Con la utilización media de GPU empresarial en cifras de un solo dígito, esa partida de capacidad no utilizada es grande y, bajo el TDABC, visible para la dirección en lugar de oculta en la tasa.
- ¿En qué se diferencia esto del AI FinOps?
- El FinOps le da visibilidad: mide y etiqueta el gasto de IA para ver dónde cayó. El TDABC añade la lógica de costeo por debajo: por qué ocurrió el coste, qué actividades y drivers lo causaron, y cuánta capacidad quedó inactiva. El showback por etiquetas responde al dónde; el costeo basado en actividades responde al porqué y al cuánto se desperdició. Los dos son complementarios, y el segundo es lo que convierte el seguimiento del gasto en rentabilidad.
Ponga un coste unitario defendible a su IA.
Construimos el modelo junto a su equipo financiero, para que lo posean y puedan actualizarlo después.
Hacer el Profit Check