Las siete dimensiones por las que se evalúa un modelo

Un modelo de costes gana confianza igual que un puente. No porque parezca terminado, sino porque aguanta la carga y se puede mostrar el trabajo. El Profitability Trust Score evalúa un modelo en siete dimensiones, devuelve un número entre 0 y 100 y trata el 75 como la línea por debajo de la cual el modelo aún no es seguro para tomar decisiones.

Este texto explica las siete, por qué son siete y no tres o doce, y por qué estamos cómodos diciendo que el marco no está terminado.

¿Por qué siete y no una única nota?

Una nota única esconde dónde está el problema. Lo probamos. Acabas con un modelo que puntúa 68 y un director financiero que pregunta, con toda la razón, sesenta y ocho de qué. Las siete dimensiones existen para que la puntuación apunte a la junta débil en vez de saludar a la estructura entera.

Llegamos a siete tras un largo periodo mirando dónde fallan de verdad los modelos en la práctica, a lo largo de los trabajos que hemos realizado. Menos dimensiones mezclaban fallos distintos. Más dimensiones partían pelos en cuatro que nadie usaba. Siete es el punto donde las categorías dejaron de solaparse y empezaron a ser útiles en una reunión de revisión.

Hay también una razón práctica. Siete es más o menos el número de preocupaciones distintas que un equipo financiero puede tener en la cabeza mientras discute un modelo. Más allá de eso, la conversación se fragmenta y la gente empieza a defender su métrica preferida en vez de mirar el modelo como un todo. Las dimensiones son una checklist, pero son también un vocabulario compartido, y un vocabulario deja de funcionar cuando tiene demasiadas palabras para aquello que describe.

¿Qué detecta de verdad cada dimensión?

Calidad de los datos. Si los inputs están completos, actuales y conciliados con una fuente que puedas nombrar. La mayoría de los modelos débiles son débiles aquí primero. Si el libro mayor dice una cosa y los cost pools del modelo dicen otra, nada aguas abajo es fiable.

Trazabilidad. Si puedes seguir un número desde el output hasta su origen sin un salto de fe. Un coste unitario que no puede trazarse hasta drivers, tarifas y cantidades es una suposición con un decimal puesto.

Lógica de asignación. Si los costes llegan a productos, servicios y clientes a través de drivers que reflejan consumo real y no comodidad. Aquí vive la mayor parte del juicio, y aquí los modelos construidos por IA tienden a agarrar el driver plausible más cercano en lugar del correcto.

Deriva (drift). Si el modelo todavía describe el negocio para el que se construyó. Los volúmenes cambian, los procesos cambian, una línea de producto se retira. Un modelo que estaba bien en enero y nunca se revisó está, en silencio, equivocado en junio.

Sesgo. Si la estructura sistemáticamente favorece o castiga ciertos productos, canales o clientes. Las decisiones de asignación cargan sesgo aunque nadie lo pretenda. La dimensión existe para hacer ese sesgo visible en lugar de dejarlo incrustado.

Robustez. Si las respuestas siguen siendo sensatas cuando fuerzas los supuestos. Sube una tarifa un quinto, quita un volumen, y mira si los márgenes se mueven en direcciones que una persona sensata esperaría.

Vínculo con los resultados (conciliación). Si el modelo cuadra con la realidad: el coste total asignado conciliando con el coste real, el margen modelado conciliando con el margen reportado. Un modelo que no concilia es una opinión, por elegante que sea.

¿Por qué 75 y no 80 o 60?

Los umbrales son juicios de valor, y lo decimos sin rodeos. Fijamos 75 porque por debajo hemos visto de forma consistente al menos una dimensión lo bastante débil como para engañar una decisión real, y por encima las brechas restantes tienden a ser refinamientos y no defectos. Deliberadamente, no es 90. Un modelo no necesita ser perfecto para ser útil. Necesita ser honesto sobre dónde está delgado, y lo bastante sólido para que las partes delgadas no den la vuelta a una conclusión.

Setenta y cinco es un suelo para decidir, no una línea de meta. Muchos modelos con los que estamos satisfechos se sitúan en los setenta y tantos y tienen un punto flaco conocido y documentado con el que el cliente ha acordado convivir. Lo que importa es que el punto flaco esté nombrado y acotado, no escondido. Un modelo que puntúa 82 con una dimensión débil que todos entienden es más seguro de usar que un modelo que puntúa 88 cuya debilidad nadie ha localizado.

¿Cambiarán las siete?

Probablemente. Tratamos el marco como un instrumento de trabajo, no como escritura sagrada. A medida que más modelos construidos por IA pasan por validación, esperamos que los patrones de fallo se desplacen, y las dimensiones deberían desplazarse con ellos. Si una categoría deja de justificar su lugar, la retiramos. Si un nuevo modo de fallo resulta lo bastante común, le ponemos nombre. El número 75 también puede cambiar, aunque querríamos una buena razón y un registro escrito antes de tocarlo.

Conclusión: trata la puntuación como un mapa de dónde es débil un modelo, no como una medalla. Lee las siete dimensiones antes que el total. Si quieres el desglose completo de cómo se mide cada una, el detalle está en /ai-profitability/trust-score/.

Las siete dimensiones por las que se evalúa un modelo de costes

¿Por qué siete y no una única nota?

¿Qué detecta de verdad cada dimensión?

¿Por qué 75 y no 80 o 60?

¿Cambiarán las siete?

Siga leyendo