Economía del AI inference: por qué el “tokens por watt” ya no basta

Economía del AI inference en datacenters: tokens por watt, goodput y latencia

Economía del AI inference: por qué el “tokens por watt” ya no basta

Compartir:

Economía del AI inference: por qué el “tokens por watt” ya no basta

La Economía del AI inference se está convirtiendo en el nuevo campo de batalla de los grandes datacenters: no se trata solo de añadir más GPUs para generar más tokens, sino de maximizar tokens por segundo por dólar y por watt sin romper los objetivos de latencia y experiencia de usuario. Nvidia ha vuelto a empujar esta idea al centro del debate al vincular explícitamente los ingresos de los Cloud Service Providers con la eficiencia de “inference tokens per watt” en sus mensajes a inversores, pero el propio mercado está demostrando que el problema real es bastante más complejo.

El punto clave: en inferencia a escala, no todos los tokens valen lo mismo. La industria empieza a distinguir entre tokens “baratos” (alto throughput agregado, baja interactividad) y tokens “premium” (baja latencia y alta tasa por usuario, pero más caros de servir). Esta segmentación está empujando decisiones de arquitectura, de software y de modelos que alteran directamente la Economía del AI inference.

Economía del AI inference: el salto de throughput a “goodput”

Si un proveedor prioriza solo throughput total, puede aumentar los tokens generados sacrificando la interactividad: tiempos mayores hasta el primer token o menos tokens por segundo por usuario. Por eso gana tracción el concepto de goodput: el rendimiento útil que cumple un SLA (por ejemplo, tiempo al primer token dentro de unos cientos de milisegundos o una tasa mínima de generación por usuario). En la práctica, la Economía del AI inference ya no se optimiza en una única métrica; se optimiza dentro de un espacio de compromisos entre coste, latencia e interactividad.

Benchmarks sintéticos orientados a inferencia, como los publicados por SemiAnalysis en su iniciativa InferenceX, se están usando para visualizar estos compromisos con curvas de Pareto: configuraciones que maximizan volumen de tokens por energía suelen degradar la respuesta interactiva, mientras que perfiles de baja latencia reducen el throughput y elevan el coste por token.

Tokens “bulk”, tokens “premium” y la “zona Goldilocks”

Los despliegues tienden a caer en tres regímenes: (1) tokens “bulk” con gran capacidad agregada y baja interactividad; (2) tokens “premium” optimizados para latencia; y (3) una zona intermedia donde la relación coste/experiencia es suficientemente buena para la mayoría de aplicaciones. Esta zona intermedia es la que buscan muchas plataformas de inferencia comercial porque permite sostener márgenes sin degradar la UX.

Economía del AI inference: el software ya decide el coste real

La Economía del AI inference está cada vez más determinada por la capa de software. Frameworks de serving como vLLM, SGLang o motores optimizados por el fabricante pueden rendir de forma muy distinta según el modelo, el tipo de carga (prefill vs decode) y el objetivo de goodput. En este contexto, Nvidia está reforzando su estrategia de “software + suscripción” alrededor de sus microservicios de inferencia y su stack, buscando reducir fricción operativa y capturar parte del valor recurrente del despliegue, no solo de la venta de hardware.

En paralelo, los hyperscalers y operadores grandes siguen priorizando alternativas open source por una razón económica: la capacidad de ajustar el serving a sus cargas específicas (batching, colas, planificación, kernels, cuantización, etc.) puede mover de forma material la curva coste/latencia, y por tanto modificar la Economía del AI inference en producción.

Fuentes oficiales: Nvidia Data Center y AMD Instinct.

Compute desagregado: separar “prefill” y “decode” para exprimir eficiencia

Otra palanca con impacto directo en la Economía del AI inference es el disaggregated compute. En vez de ejecutar toda la inferencia en el mismo conjunto de GPUs, los frameworks de serving desagregado distribuyen fases: la etapa de prefill (procesamiento del prompt, intensiva en compute) puede ir a un pool, mientras la etapa de decode (generación de tokens, típicamente limitada por bandwidth y memoria) va a otro. Esto permite ajustar ratios de recursos según el patrón de uso: más prefill para soportar más usuarios concurrentes, o más decode para cargas muy sensibles a latencia como asistentes de código.

Combinado con técnicas como speculative decoding y variantes de predicción multi-token, este enfoque puede elevar el rendimiento útil (goodput) sin disparar el consumo, desplazando favorablemente la relación coste/latencia que define la Economía del AI inference.

Rack-scale y MoE: el cambio de arquitectura empujado por la latencia

El avance de arquitecturas de modelo como Mixture of Experts (MoE) también está afectando la Economía del AI inference. Al activar solo una fracción del modelo por token, MoE introduce patrones de comunicación intensos entre “experts”, elevando la importancia de interconexiones rápidas y topologías que reduzcan latencia. De ahí el empuje a diseños rack-scale, donde más aceleradores quedan unidos por fabrics de alta velocidad para sostener throughput sin degradar interactividad.

En la práctica, la industria se enfrenta a un problema de ingeniería y de negocio: encontrar el equilibrio correcto entre expert parallelism, pipeline parallelism, data parallelism y tensor parallelism para cumplir goodput, mantener la latencia objetivo y no romper el coste por token. Esa combinación es, cada vez más, el núcleo de la Economía del AI inference.

¿Fin de los servidores de 8 GPUs? No tan rápido

Aunque rack-scale puede ofrecer ventajas claras en ciertos regímenes (especialmente donde se prioriza throughput agregado), los sistemas tradicionales de 8 GPUs siguen siendo relevantes por coste y por flexibilidad operativa, especialmente en datacenters air-cooled o donde la demanda se concentra en perfiles de alta interactividad. En otras palabras: no existe una arquitectura única que gane siempre; la Economía del AI inference depende del mix de cargas y del tipo de producto (tokens “bulk” vs “premium”).

Precisión y cuantización: FP8 hoy, FP4 mañana (con matices)

Los aceleradores más recientes de Nvidia y AMD ya incluyen soporte nativo para precisiones más bajas como FP4, y la teoría económica es clara: bajar precisión reduce memoria, bandwidth y compute por token, mejorando throughput y coste. Sin embargo, la Economía del AI inference no puede ignorar el riesgo de degradación por cuantización: si cae demasiado la calidad, el token deja de ser “vendible” al mismo precio, y el ahorro se vuelve irrelevante.

El resultado es un ciclo de dependencia fuerte del software: para capturar las ganancias reales de FP4 se necesitan kernels optimizados, soporte por modelo y una validación de calidad que permita convertir la eficiencia en producto comercializable. Es una carrera que se mueve rápido, y que puede alterar el ranking competitivo en semanas.

Una carrera de commodity: cuando el token es el producto

En el mercado de modelos open-weights, los tokens tienden a la commoditización: gana quien entregue el conjunto más atractivo de modelos con mejor coste, mejor latencia o mejor “calidad percibida” a precio competitivo. Algunas compañías intentan escapar de esta dinámica vendiendo baja latencia como premium; otras compiten ofreciendo personalización, tuning y herramientas de despliegue para diferenciar el servicio más allá del precio por millón de tokens.

En ese escenario, la Economía del AI inference se define por la suma de decisiones pequeñas pero críticas: qué stack de serving se usa por modelo, cómo se aplica batching, cómo se asignan pools para prefill/decode, qué precisión se adopta y qué arquitectura (rack-scale o cajas de 8 GPUs) encaja con el SLA. La consecuencia para el sector es directa: la ventaja competitiva ya no es “tener GPUs”, sino convertir energía y silicio en tokens útiles con una latencia que el cliente esté dispuesto a pagar.

La Economía del AI inference entra así en una etapa de optimización continua donde hardware, software y arquitectura se actualizan sin descanso: quien no itere rápido, deja rendimiento (y margen) sobre la mesa.

Compartir:

Déjanos tu comentario

Scroll al inicio