Um modelo de custos ganha confiança da mesma forma que uma ponte. Não por parecer terminado, mas por aguentar a carga e por se conseguir mostrar o trabalho. O Profitability Trust Score avalia um modelo em sete dimensões, devolve um número entre 0 e 100 e trata o 75 como a linha abaixo da qual o modelo ainda não é seguro para tomar decisões.
Este texto explica as sete, por que são sete e não três ou doze, e por que estamos à vontade para dizer que o enquadramento não está terminado.
Porquê sete e não uma única nota?
Uma nota única esconde onde está o problema. Já experimentámos. Acaba-se com um modelo a pontuar 68 e um diretor financeiro a perguntar, com toda a razão, sessenta e oito de quê. As sete dimensões existem para que a pontuação aponte para a junta fraca em vez de acenar para a estrutura inteira.
Chegámos a sete depois de um longo período a olhar para onde os modelos realmente falham na prática, ao longo dos trabalhos que conduzimos. Menos dimensões misturavam falhas distintas. Mais dimensões partiam cabelos em quatro que ninguém usava. Sete é o ponto onde as categorias deixaram de se sobrepor e passaram a ser úteis numa reunião de revisão.
Há também uma razão prática. Sete é mais ou menos o número de preocupações distintas que uma equipa financeira consegue ter na cabeça enquanto discute um modelo. Para além disso, a conversa fragmenta-se e as pessoas começam a defender a sua métrica preferida em vez de olhar para o modelo como um todo. As dimensões são uma checklist, mas são também um vocabulário partilhado, e um vocabulário deixa de funcionar quando tem palavras a mais para aquilo que descreve.
O que é que cada dimensão deteta de facto?
Qualidade dos dados. Se os inputs estão completos, atuais e reconciliados com uma fonte que se consiga nomear. A maioria dos modelos fracos é fraca aqui primeiro. Se o razão geral diz uma coisa e os cost pools do modelo dizem outra, nada a jusante é fiável.
Rastreabilidade. Se se consegue seguir um número do output até à sua origem sem um salto de fé. Um custo unitário que não se consegue rastrear até drivers, taxas e quantidades é um palpite com uma casa decimal.
Lógica de alocação. Se os custos chegam a produtos, serviços e clientes através de drivers que refletem consumo real e não conveniência. É aqui que vive a maior parte do juízo, e onde os modelos construídos por IA tendem a agarrar o driver plausível mais próximo em vez do correto.
Desvio (drift). Se o modelo ainda descreve o negócio para o qual foi construído. Os volumes mudam, os processos mudam, uma linha de produto é descontinuada. Um modelo que estava certo em janeiro e nunca foi revisitado está, em silêncio, errado em junho.
Enviesamento. Se a estrutura sistematicamente favorece ou penaliza certos produtos, canais ou clientes. As escolhas de alocação carregam enviesamento mesmo quando ninguém o pretende. A dimensão existe para tornar esse enviesamento visível em vez de o deixar embutido.
Robustez. Se as respostas continuam sensatas quando se forçam os pressupostos. Suba uma taxa um quinto, retire um volume, e veja se as margens se movem em direções que uma pessoa sensata esperaria.
Ligação aos resultados (reconciliação). Se o modelo bate certo com a realidade: o custo total alocado a reconciliar com o custo real, a margem modelada a reconciliar com a margem reportada. Um modelo que não reconcilia é uma opinião, por mais elegante que seja.
Porquê 75 e não 80 ou 60?
Os limiares são juízos de valor, e dizemo-lo sem rodeios. Fixámos 75 porque abaixo disso vimos consistentemente pelo menos uma dimensão fraca ao ponto de enganar uma decisão real, e acima disso as lacunas restantes tendem a ser refinamentos e não defeitos. Deliberadamente, não é 90. Um modelo não precisa de ser perfeito para ser útil. Precisa de ser honesto sobre onde está fino, e suficientemente sólido para que as partes finas não virem uma conclusão.
Setenta e cinco é um chão para decidir, não uma linha de chegada. Muitos modelos com que ficamos satisfeitos situam-se nos setenta e tal e têm um ponto fraco conhecido e documentado com que o cliente concordou viver. O que importa é que o ponto fraco esteja nomeado e delimitado, não escondido. Um modelo a pontuar 82 com uma dimensão fraca que toda a gente compreende é mais seguro de usar do que um modelo a pontuar 88 cuja fraqueza ninguém localizou.
As sete vão mudar?
Provavelmente. Tratamos o enquadramento como um instrumento de trabalho, não como escritura. À medida que mais modelos construídos por IA passam por validação, esperamos que os padrões de falha se desloquem, e as dimensões devem deslocar-se com eles. Se uma categoria deixar de justificar o seu lugar, retiramo-la. Se um novo modo de falha se revelar suficientemente comum, damos-lhe um nome. O número 75 também pode mudar, embora quiséssemos uma boa razão e um registo escrito antes de lhe tocar.
Conclusão: trate a pontuação como um mapa de onde um modelo é fraco, não como uma medalha. Leia as sete dimensões antes do total. Se quiser a decomposição completa de como cada uma é medida, o detalhe está em /ai-profitability/trust-score/.