Coste de servir funciones de IA: el coste variable tras cada clic
Cuando una función eran unas líneas de código, servirla una vez más no costaba casi nada. La IA lo cambió. Cada vez que un usuario pulsa una función de IA, esta gasta tokens, puede ejecutar un paso de retrieval, pasa por guardrails y a veces dispara revisión humana. Ese coste variable, repetido en millones de usos, es el coste de servir la función, y ahora es una decisión de diseño activa, no un coste hundido. Gartner prevé que el coste por resolución de IA en atención al cliente supere los tres dólares para 2030, por encima de muchos agentes humanos offshore. El coste de servir, la disciplina que construyó la curva de la ballena, es justo la lente que la IA necesita ahora.
La mayoría de las herramientas de coste de IA agregan la factura de tokens y la etiquetan por equipo o producto. Es útil, pero no es coste de servir. El coste de servir asigna todos los costes de servir una unidad de salida, no solo los tokens: las consultas de retrieval contra una base de datos vectorial, las llamadas de guardrail y moderación, el sobrecoste de orquestación, y la revisión humana que hace la salida segura para entregar. En funciones de IA intensivas en servicio, esos costes no-token pueden rivalizar con la factura del modelo. Déjelos fuera y la función parece más barata de lo que es.
Cuando sabe lo que cuesta servir un uso, siguen dos decisiones. Primera, el precio: una función con precio de suscripción fija pero servida a un coste variable por uso perderá dinero con usuarios intensivos, razón por la que el precio por resultado, como un cargo fijo por ticket resuelto, se está extendiendo. Segunda, el diseño: conocer el coste de servir permite enrutar peticiones baratas a modelos pequeños y reservar el razonamiento caro para los casos que lo necesitan, que es como los equipos recortan coste de sistema sin recortar calidad. Ninguna de las decisiones es posible sin la cifra por uso.
CUÁNTO CUESTA SERVIR UNA INTERACCIÓN DE IA
Ilustrativo. Los tokens del modelo son solo el primer escalón hacia abajo. Retrieval, guardrails, orquestación y revisión humana completan el coste real de servir una interacción de IA, nada de lo cual muestra una cuenta de resultados estándar.
Cuando servir a un usuario más cuesta dinero real, el coste de servir deja de ser un ejercicio contable y pasa a ser una decisión de producto.
Preguntas frecuentes
- ¿Qué es el coste de servir de una función de IA?
- Es el coste variable total de un uso de la función: los tokens consumidos, cualquier llamada de retrieval o herramientas, comprobaciones de guardrail y moderación, orquestación, y la revisión humana necesaria para confiar en la salida. A diferencia de una factura de tokens en bruto, el coste de servir asigna todo esto a una sola unidad de salida, que es lo que permite juzgar si la función es rentable de servir.
- ¿En qué se diferencia de la factura de cloud o de tokens?
- La factura de cloud le dice el gasto total; el coste de servir le dice el coste de una unidad de salida y quién la desencadenó. La factura de tokens es solo parte del cuadro, porque retrieval, guardrails, orquestación y revisión humana también cuestan dinero al servir cada uso. El coste de servir lo reúne todo frente a un resultado.
- ¿Por qué importa el coste de servir para el precio de la IA?
- Porque una función vendida a precio fijo pero servida a un coste variable por uso pierde dinero con usuarios intensivos. Conocer el coste de servir un uso permite fijar un precio que se sostiene, o pasar a precio por resultado, como un cargo por petición resuelta. Sin el coste por uso, el precio es una conjetura.
- ¿Podemos reducir el coste de servir sin perder calidad?
- Sí. Cuando puede ver el coste de cada uso, puede enrutar peticiones simples a modelos más pequeños y baratos, cachear contexto repetido, y reservar los modelos de razonamiento caros para los casos que los necesitan. Los equipos que lo hacen reportan grandes reducciones de coste de sistema sin caída en la calidad de la salida. El requisito previo es medir el coste de servir, para empezar.
Vea el coste de servir sus funciones de IA.
El Profit Check muestra dónde se esconde su coste de servir, IA incluida, en cinco minutos.
Hacer el Profit Check