TDABC para a IA: tratar tokens, GPUs e agentes como atividades
O custo da IA parece novo, mas a sua forma é antiga. Uma GPU que paga esteja ou não ocupada tem a mesma forma de uma máquina ou de uma equipa com tempo parado. Um token consumido é um cost driver. Um processo assistido por IA é uma atividade que consome uma mistura de recursos. O Time-Driven Activity-Based Costing, desenvolvido por Kaplan e Anderson, foi feito exatamente para isto: custear um recurso à sua taxa de capacidade prática, mover o custo com uma quantidade mensurável, e escrever o processo como uma equação de tempo curta. Aplicado à IA, transforma uma fatura de cloud agregada num custo unitário que consegue defender.
Comece pela GPU como recurso de capacidade. O seu custo verdadeiro não é só a etiqueta do aluguer; é o custo total de a fornecer, o hardware amortizado, mais energia, arrefecimento e a operação à volta. Divida esse custo total pela capacidade prática que a GPU consegue realisticamente entregar, cerca de 80 a 85 por cento da teórica, não 100. O resultado é uma taxa de custo de capacidade prática por GPU-segundo. Os dados do setor colocam a utilização média de GPU empresarial em valores de um só dígito, o que significa que a maior parte do que se paga é o custo de capacidade não utilizada. O TDABC torna essa rubrica visível em vez de a esconder numa taxa agregada inflacionada.
No custeio baseado em atividades, um cost driver é a quantidade mensurável que causa o custo. Para a IA, o token é o driver natural, com o preço por token como taxa, e a chamada ou pedido como driver secundário. Os tokens de output custam mais do que os de input porque são gerados um a um, por isso a taxa tem duas partes. A comunidade FinOps chama agora ao token a unidade atómica da IA; em termos de contabilidade de custos é simplesmente o cost driver da atividade, e nomeá-lo assim permite tratar a IA como qualquer outra atividade.
Uma equação de tempo TDABC exprime quanto de cada recurso uma transação consome, ajustando ao que torna as transações diferentes. Para um processo assistido por IA, a equação mistura unidades: tantos tokens de input e output, tantos GPU-segundos, tantos minutos de revisão humana, mais uma provisão para repetições quando o modelo erra. Essa única linha é o custo de um resultado. Some os resultados e consegue atribuir o custo da IA a um processo, a um produto, a um cliente ou a um caso de uso, exatamente como o ABC atribui custos indiretos há trinta anos.
Quando cada resultado de IA carrega um custo real, coloque-o face ao valor que cria e ordene do mais ao menos rentável de servir com IA. O padrão familiar regressa: um núcleo rentável, um meio plano, e uma cauda onde a IA discretamente devolve margem. Essa imagem ordenada é a curva da baleia, agora desenhada para a IA. É onde começam as decisões: que casos de uso escalar, quais reprecificar, e quais parar.
A EQUAÇÃO DE TEMPO DA IA, VISUALIZADA
Ilustrativo. Um resultado de IA decomposto no seu consumo de recursos: tokens de input e output, GPU-segundos à taxa de capacidade prática, minutos de revisão humana, e uma provisão de repetições. A soma é o custo unitário.
O FinOps diz onde o custo da IA caiu. O TDABC diz porque ocorreu, e quanta capacidade pagou sem usar.
Perguntas frequentes
- Pode aplicar-se o custeio baseado em atividades à IA?
- Sim, e encaixa invulgarmente bem. O custo da IA tem a mesma estrutura para que o ABC foi feito: um recurso de capacidade (a GPU) que paga esteja ocupado ou parado, um cost driver mensurável (o token ou a chamada), e processos que consomem uma mistura de recursos. O Time-Driven Activity-Based Costing em particular lida com a IA de forma limpa, porque custeia a capacidade a uma taxa de capacidade prática e exprime cada processo como uma equação de tempo.
- Qual é o cost driver da IA?
- O token é o cost driver primário, com o preço por token como taxa; a chamada ou pedido é um driver secundário. Os tokens de output têm uma taxa mais alta do que os de input porque são gerados sequencialmente. Tratar o token como cost driver é o que permite custear a IA com a mesma lógica baseada em atividades usada para qualquer outro recurso.
- Como é que o TDABC trata o custo de GPU ociosa?
- Diretamente. O TDABC custeia um recurso à sua taxa de capacidade prática, o custo total do recurso a dividir pela capacidade que entrega realisticamente, e reporta a parte não utilizada como custo de capacidade não utilizada. Com a utilização média de GPU empresarial em valores de um só dígito, essa rubrica de capacidade não utilizada é grande e, sob o TDABC, visível para a gestão em vez de escondida na taxa.
- Em que é que isto difere do AI FinOps?
- O FinOps dá-lhe visibilidade: mede e marca o gasto de IA para ver onde caiu. O TDABC acrescenta a lógica de custeio por baixo: porque ocorreu o custo, que atividades e drivers o causaram, e quanta capacidade ficou ociosa. O showback por tags responde ao onde; o custeio baseado em atividades responde ao porquê e ao quanto se desperdiçou. Os dois são complementares, e o segundo é o que transforma o acompanhamento do gasto em rentabilidade.
Ponha um custo unitário defensável na sua IA.
Construímos o modelo com a sua equipa financeira, para que o detenham e o possam atualizar depois.
Fazer o Profit Check