Custo de servir features de IA: o custo variável por trás de cada clique
Quando uma feature eram umas linhas de código, servi-la mais uma vez custava quase nada. A IA mudou isso. Cada vez que um utilizador clica numa feature de IA, ela gasta tokens, pode correr um passo de retrieval, passa por guardrails e às vezes despoleta revisão humana. Esse custo variável, repetido por milhões de usos, é o custo de servir a feature, e é agora uma decisão de desenho ativa, não um custo afundado. A Gartner prevê que o custo por resolução de IA no apoio ao cliente passe os três dólares até 2030, acima de muitos agentes humanos offshore. O custo de servir, a disciplina que construiu a curva da baleia, é exatamente a lente de que a IA agora precisa.
A maioria das ferramentas de custo de IA agrega a fatura de tokens e marca-a por equipa ou produto. É útil, mas não é custo de servir. O custo de servir aloca todos os custos de servir uma unidade de output, não só os tokens: as consultas de retrieval a uma base de dados vetorial, as chamadas de guardrail e moderação, o overhead de orquestração, e a revisão humana que torna o output seguro para entregar. Em features de IA intensivas em serviço, esses custos não-token podem rivalizar com a fatura do modelo. Deixe-os de fora e a feature parece mais barata do que é.
Quando sabe o que custa servir um uso, seguem-se duas decisões. Primeiro, o preço: uma feature com preço de subscrição fixa mas servida a um custo variável por uso vai dar prejuízo com utilizadores intensivos, razão pela qual o preço por outcome, como um valor fixo por ticket resolvido, está a espalhar-se. Segundo, o desenho: saber o custo de servir permite encaminhar pedidos baratos para modelos pequenos e reservar o raciocínio caro para os casos que precisam, que é como as equipas cortam custo de sistema sem cortar qualidade. Nenhuma das decisões é possível sem o número por uso.
QUANTO CUSTA SERVIR UMA INTERAÇÃO DE IA
Ilustrativo. Os tokens do modelo são só o primeiro degrau a descer. Retrieval, guardrails, orquestração e revisão humana completam o custo real de servir uma interação de IA, nada disto visível numa demonstração de resultados padrão.
Quando servir mais um utilizador custa dinheiro real, o custo de servir deixa de ser um exercício contabilístico e passa a ser uma decisão de produto.
Perguntas frequentes
- O que é o custo de servir de uma feature de IA?
- É o custo variável total de um uso da feature: os tokens consumidos, quaisquer chamadas de retrieval ou ferramentas, verificações de guardrail e moderação, orquestração, e a revisão humana necessária para confiar no output. Ao contrário de uma fatura de tokens em bruto, o custo de servir aloca tudo isto a uma única unidade de output, que é o que permite julgar se a feature é rentável de servir.
- Em que difere da fatura de cloud ou de tokens?
- A fatura de cloud diz-lhe o gasto total; o custo de servir diz-lhe o custo de uma unidade de output e quem a desencadeou. A fatura de tokens é só parte do quadro, porque retrieval, guardrails, orquestração e revisão humana também custam dinheiro a servir cada uso. O custo de servir junta tudo face a um resultado.
- Porque importa o custo de servir para o preço da IA?
- Porque uma feature vendida a preço fixo mas servida a um custo variável por uso dá prejuízo com utilizadores intensivos. Saber o custo de servir um uso permite fixar um preço que se sustenta, ou passar a preço por outcome, como um valor por pedido resolvido. Sem o custo por uso, o preço é um palpite.
- Podemos reduzir o custo de servir sem perder qualidade?
- Sim. Quando consegue ver o custo de cada uso, pode encaminhar pedidos simples para modelos mais pequenos e baratos, fazer cache de contexto repetido, e reservar os modelos de raciocínio caros para os casos que precisam. As equipas que o fazem reportam grandes reduções de custo de sistema sem queda na qualidade do output. O pré-requisito é medir o custo de servir, antes de mais.
Veja o custo de servir as suas features de IA.
O Profit Check mostra onde o seu custo de servir, IA incluída, está escondido, em cinco minutos.
Fazer o Profit Check