Porque sobem as faturas de IA se o preço por token está a descer?

Porque tokens mais baratos convidam a muito mais uso de tokens. Os modelos de raciocínio e os sistemas agênticos re-enviam contexto e percorrem muitos passos, consumindo várias vezes mais tokens por tarefa do que uma simples chamada de chatbot. O consumo de tokens cresce mais depressa do que o preço por token desce. É o efeito Jevons aplicado à IA.

Como se calcula o custo unitário da IA?

Trate-a como uma atividade. Custeie a capacidade de GPU à sua taxa de capacidade prática, o custo total do recurso a dividir pela capacidade que entrega realisticamente. Use o token como cost driver, com o preço por token como taxa. Escreva o processo assistido por IA como uma equação de tempo que combina tokens, GPU-segundos e minutos de revisão humana, e atribua o resultado ao cliente, produto ou processo que o desencadeou. É o Time-Driven Activity-Based Costing aplicado à IA.

A nossa IA é rentável?

Só consegue responder depois de ter um custo unitário. Com o custo de um resultado de IA estabelecido, coloca-o face ao valor que esse resultado cria e ordena clientes, produtos ou features do mais ao menos rentável de servir com IA. O resultado é uma curva da baleia para a IA: um núcleo rentável, um meio plano, e uma cauda onde a IA devolve margem. A maioria das organizações nunca a desenhou.

O que é o AI FinOps, e chega?

O AI FinOps, por vezes chamado tokenomics, é a disciplina de medir e atribuir o gasto de IA, e é um avanço real em visibilidade. Não chega por si só porque o showback por tags diz onde o custo caiu, não porque ocorreu nem quanta capacidade ficou por usar. O custeio baseado em atividades fornece a lógica de alocação que falta e torna visível o custo de capacidade não utilizada.

Análise · O custo da IA

O verdadeiro custo da IA é um custo unitário. Quase ninguém o mede.

O custo da IA numa empresa não é a fatura da API. É o custo total de produzir um resultado de IA útil, depois de contar a inferência, a capacidade das GPUs por trás dela, dados e integração, revisão humana, repetições e governação. O preço por token caiu cerca de dez vezes por ano, mas as faturas de IA das empresas estão a subir, porque os modelos de raciocínio e os agentes consomem muito mais tokens por tarefa. As empresas que vão ganhar a próxima fase são as que conseguem responder a uma pergunta enganadoramente simples: quanto custa, de facto, uma unidade da nossa IA, e é rentável servi-la?

O custo da IA, numa linha

Custo de um resultado de IA = tokens × preço por token + GPU-segundos × taxa de capacidade prática + minutos de revisão humana × custo carregado + overhead de repetições e governação.
Contribuição líquida = valor do resultado − esse custo.

Onde está o terreno, em 2025-2026

95%

das organizações não reportam impacto mensurável no P&L da IA generativa, seis meses depois do piloto.

MIT NANDA, 2025

~10×

mais barato por token, por ano, a qualidade constante — mas a fatura total continua a subir à medida que as tarefas consomem mais tokens.

a16z LLMflation, 2024

>3 $

custo previsto por resolução de IA no apoio ao cliente até 2030, acima de muitos agentes humanos offshore.

Gartner, 2026

Os números são atribuídos à respetiva fonte e refletem o estado do reporte em 2025-2026. O número do MIT mede organizações sem impacto mensurável no P&L, não uma taxa de falha técnica; é investigação preliminar e deve ser citado como tal.

Há uma contradição no centro da conversa sobre IA. Estudos patrocinados por fornecedores reportam vários dólares de retorno por cada dólar gasto, enquanto a investigação independente conclui que a maioria das organizações não consegue apontar qualquer efeito nos resultados. As duas coisas podem ser verdade ao mesmo tempo, pela mesma razão: o retorno da IA é muito alegado e raramente medido. Quando ninguém custeou um único resultado de IA, ninguém consegue dizer se ele compensa. Esta lacuna não é um problema de tecnologia. É um problema de contabilidade de custos, e é precisamente esse que existimos para resolver.

Porque a fatura sobe enquanto o token fica mais barato

O facto mais mal compreendido sobre o custo da IA é que tokens mais baratos não significam faturas menores. O preço de gerar um token de determinada qualidade colapsou, uma tendência a que a a16z chamou LLMflation. Mas tokens mais baratos convidam a um uso muito mais intensivo de tokens. Um workflow linear simples de 2023 podia custar uns cêntimos por interação; um sistema agêntico orquestrado em 2026, com ferramentas, ciclos de raciocínio e contexto re-enviado, pode custar mais de um dólar pela mesma interação, cerca de trinta vezes mais segundo uma estimativa da EY. É o clássico efeito Jevons: quando um recurso fica mais barato por unidade, o consumo total pode crescer mais depressa do que o preço desce. O resultado é que features de IA com preço fixo passam discretamente a dar prejuízo com utilizadores intensivos, razão pela qual os fornecedores de ferramentas de programação passaram 2025 a abandonar os planos fixos.

O CUSTO DA IA É UM ICEBERGUE

Ilustrativo. O preço da API por token é a ponta visível. Abaixo da superfície estão o custo de capacidade das GPUs (boa parte muitas vezes ociosa), a preparação de dados e a integração, a revisão humana que valida o output da IA, as repetições e a governação. Uma demonstração de resultados padrão não mostra nada disto como custo da IA.

O método: tratar a IA como qualquer outra capacidade

A contabilidade de custos já resolveu um problema com exatamente a mesma forma do custo da IA. Uma GPU que alugamos à hora mas usamos só uma fração do tempo tem a mesma forma de uma máquina ou uma equipa que pagamos esteja ou não ocupada. O Time-Driven Activity-Based Costing, o método desenvolvido por Kaplan e Anderson, custeia um recurso à sua taxa de capacidade prática: o custo total de fornecer o recurso a dividir pela capacidade que ele consegue realisticamente entregar, com a parte não utilizada tornada visível em vez de escondida numa taxa inflacionada. Os dados do setor colocam a utilização média de GPU empresarial em valores de um só dígito, o que significa que a maior parte da fatura de GPU é o custo de capacidade não utilizada, uma rubrica que o TDABC foi feito para revelar.

A partir daí, o resto segue. O token passa a ser o cost driver, e o preço por token a sua taxa de driver. Um processo assistido por IA passa a ser uma atividade com uma equação de tempo curta que combina unidades: tantos tokens, tantos GPU-segundos, tantos minutos de revisão humana. Some esses custos e consegue atribuir o custo da IA a um processo, a um produto, a um cliente ou a um caso de uso, exatamente como o custeio baseado em atividades atribui custos indiretos há trinta anos. O mundo FinOps está a redescobrir isto sob nomes novos, tokenomics e showback, mas o tagging diz onde o custo caiu, não porque ocorreu nem que capacidade ficou ociosa. É esse rigor que a contabilidade de custos clássica acrescenta.

O showback diz onde o custo da IA caiu. O custeio baseado em atividades diz porque ocorreu, e que parte dele está a pagar sem usar.

Perguntas frequentes

Quanto custa, de facto, a IA a uma empresa?: Mais do que a linha da API ou da subscrição sugere. O verdadeiro custo de um resultado de IA inclui os tokens consumidos, o custo de capacidade das GPUs que correm o modelo (boa parte muitas vezes ociosa), a preparação de dados e a integração, a revisão humana necessária para confiar no output, as repetições quando o modelo erra, e a governação. Os estudos de custo total de propriedade colocam o valor completo bem acima do preço visível da API; a única forma de saber o seu número é custear um resultado de ponta a ponta.
Porque sobem as faturas de IA se o preço por token está a descer?: Porque tokens mais baratos convidam a muito mais uso de tokens. Os modelos de raciocínio e os sistemas agênticos re-enviam contexto e percorrem muitos passos, consumindo várias vezes mais tokens por tarefa do que uma simples chamada de chatbot. O consumo de tokens cresce mais depressa do que o preço por token desce, por isso a fatura total sobe mesmo com cada token a ficar mais barato. É o efeito Jevons aplicado à IA.
Como se calcula o custo unitário da IA?: Trate-a como uma atividade. Custeie a capacidade de GPU à sua taxa de capacidade prática, o custo total do recurso a dividir pela capacidade que ele consegue realisticamente entregar. Use o token como cost driver, com o preço por token como taxa. Escreva o processo assistido por IA como uma equação de tempo que combina tokens, GPU-segundos e minutos de revisão humana, e depois atribua o resultado ao cliente, produto ou processo que o desencadeou. É o Time-Driven Activity-Based Costing aplicado à IA.
A nossa IA é rentável?: Só consegue responder a isso depois de ter um custo unitário. Com o custo de um resultado de IA estabelecido, coloca-o face ao valor que esse resultado cria e ordena clientes, produtos ou features do mais ao menos rentável de servir com IA. O resultado é uma curva da baleia para a IA: um núcleo rentável, um meio plano, e uma cauda onde a IA discretamente devolve margem. A maioria das organizações nunca a desenhou.
O que é o AI FinOps, e chega?: O AI FinOps, por vezes chamado tokenomics, é a disciplina de medir e atribuir o gasto de IA, e é um avanço real em visibilidade. Não chega por si só porque o showback por tags diz onde o custo caiu, não porque ocorreu nem quanta capacidade ficou por usar. O custeio baseado em atividades fornece a lógica de alocação que falta e torna visível o custo de capacidade não utilizada, e é isso que transforma o acompanhamento do gasto em gestão de rentabilidade.

Continuar a explorar

Descubra o custo unitário real da sua IA.

O Profit Check mostra onde o seu custo de servir, IA incluída, está escondido, em cinco minutos, sem carregar dados.

Fazer o Profit Check

O verdadeiro custo da IA é um custo unitário. Quase ninguém o mede.

Perguntas frequentes

Análise de custo de servir

A curva da baleia da rentabilidade

Modelos de rentabilidade em que pode confiar

Descubra o custo unitário real da sua IA.

Continue a explorar

Curva da Baleia

Custo-de-Servir

Caso de Estudo: Distribuidor NZ

Não sabe onde se encaixa?