Método · Custo da IA

TDABC para a IA: tratar tokens, GPUs e agentes como atividades

O custo da IA parece novo, mas a sua forma é antiga. Uma GPU que paga esteja ou não ocupada tem a mesma forma de uma máquina ou de uma equipa com tempo parado. Um token consumido é um cost driver. Um processo assistido por IA é uma atividade que consome uma mistura de recursos. O Time-Driven Activity-Based Costing, desenvolvido por Kaplan e Anderson, foi feito exatamente para isto: custear um recurso à sua taxa de capacidade prática, mover o custo com uma quantidade mensurável, e escrever o processo como uma equação de tempo curta. Aplicado à IA, transforma uma fatura de cloud agregada num custo unitário que consegue defender.

A equação de tempo da IA
Custo de um resultado de IA = tokens × preço por token + GPU-segundos × taxa de capacidade prática + minutos de revisão × custo de mão de obra + overhead de repetições.
Passo 1 · Custear a capacidade, não a etiqueta

Comece pela GPU como recurso de capacidade. O seu custo verdadeiro não é só a etiqueta do aluguer; é o custo total de a fornecer, o hardware amortizado, mais energia, arrefecimento e a operação à volta. Divida esse custo total pela capacidade prática que a GPU consegue realisticamente entregar, cerca de 80 a 85 por cento da teórica, não 100. O resultado é uma taxa de custo de capacidade prática por GPU-segundo. Os dados do setor colocam a utilização média de GPU empresarial em valores de um só dígito, o que significa que a maior parte do que se paga é o custo de capacidade não utilizada. O TDABC torna essa rubrica visível em vez de a esconder numa taxa agregada inflacionada.

Passo 2 · Fazer do token o cost driver

No custeio baseado em atividades, um cost driver é a quantidade mensurável que causa o custo. Para a IA, o token é o driver natural, com o preço por token como taxa, e a chamada ou pedido como driver secundário. Os tokens de output custam mais do que os de input porque são gerados um a um, por isso a taxa tem duas partes. A comunidade FinOps chama agora ao token a unidade atómica da IA; em termos de contabilidade de custos é simplesmente o cost driver da atividade, e nomeá-lo assim permite tratar a IA como qualquer outra atividade.

Passo 3 · Escrever o processo como equação de tempo

Uma equação de tempo TDABC exprime quanto de cada recurso uma transação consome, ajustando ao que torna as transações diferentes. Para um processo assistido por IA, a equação mistura unidades: tantos tokens de input e output, tantos GPU-segundos, tantos minutos de revisão humana, mais uma provisão para repetições quando o modelo erra. Essa única linha é o custo de um resultado. Some os resultados e consegue atribuir o custo da IA a um processo, a um produto, a um cliente ou a um caso de uso, exatamente como o ABC atribui custos indiretos há trinta anos.

Passo 4 · Ordenar, e encontrar quem dá prejuízo

Quando cada resultado de IA carrega um custo real, coloque-o face ao valor que cria e ordene do mais ao menos rentável de servir com IA. O padrão familiar regressa: um núcleo rentável, um meio plano, e uma cauda onde a IA discretamente devolve margem. Essa imagem ordenada é a curva da baleia, agora desenhada para a IA. É onde começam as decisões: que casos de uso escalar, quais reprecificar, e quais parar.

A EQUAÇÃO DE TEMPO DA IA, VISUALIZADA

Ilustrativo. Um resultado de IA decomposto no seu consumo de recursos: tokens de input e output, GPU-segundos à taxa de capacidade prática, minutos de revisão humana, e uma provisão de repetições. A soma é o custo unitário.

O FinOps diz onde o custo da IA caiu. O TDABC diz porque ocorreu, e quanta capacidade pagou sem usar.

Perguntas frequentes

Pode aplicar-se o custeio baseado em atividades à IA?
Sim, e encaixa invulgarmente bem. O custo da IA tem a mesma estrutura para que o ABC foi feito: um recurso de capacidade (a GPU) que paga esteja ocupado ou parado, um cost driver mensurável (o token ou a chamada), e processos que consomem uma mistura de recursos. O Time-Driven Activity-Based Costing em particular lida com a IA de forma limpa, porque custeia a capacidade a uma taxa de capacidade prática e exprime cada processo como uma equação de tempo.
Qual é o cost driver da IA?
O token é o cost driver primário, com o preço por token como taxa; a chamada ou pedido é um driver secundário. Os tokens de output têm uma taxa mais alta do que os de input porque são gerados sequencialmente. Tratar o token como cost driver é o que permite custear a IA com a mesma lógica baseada em atividades usada para qualquer outro recurso.
Como é que o TDABC trata o custo de GPU ociosa?
Diretamente. O TDABC custeia um recurso à sua taxa de capacidade prática, o custo total do recurso a dividir pela capacidade que entrega realisticamente, e reporta a parte não utilizada como custo de capacidade não utilizada. Com a utilização média de GPU empresarial em valores de um só dígito, essa rubrica de capacidade não utilizada é grande e, sob o TDABC, visível para a gestão em vez de escondida na taxa.
Em que é que isto difere do AI FinOps?
O FinOps dá-lhe visibilidade: mede e marca o gasto de IA para ver onde caiu. O TDABC acrescenta a lógica de custeio por baixo: porque ocorreu o custo, que atividades e drivers o causaram, e quanta capacidade ficou ociosa. O showback por tags responde ao onde; o custeio baseado em atividades responde ao porquê e ao quanto se desperdiçou. Os dois são complementares, e o segundo é o que transforma o acompanhamento do gasto em rentabilidade.

Ponha um custo unitário defensável na sua IA.

Construímos o modelo com a sua equipa financeira, para que o detenham e o possam atualizar depois.

Fazer o Profit Check
M
Pergunte-nos o que quiser
costuma responder em minutos
Olá. Respondo aqui mesmo às perguntas rápidas sobre custo, método e prazos. Para algo específico do seu negócio, passo-o ao Miguel no WhatsApp.
Grátis. Sem voltas de robô. Direto a uma pessoa.