Nvidia integra Groq 3 LPX: racks de LPUs para inferencia de baja latencia a escala

Nvidia Groq 3 LPX racks para inferencia de baja latencia en datacenter con LPUs LP30 y SRAM on-chip

Nvidia integra Groq 3 LPX: racks de LPUs para inferencia de baja latencia a escala

Compartir:

Nvidia integra Groq 3 LPX: racks de LPUs para inferencia de baja latencia a escala

Nvidia Groq 3 LPX racks para inferencia de baja latencia llegan como la nueva pieza de infraestructura presentada en GTC para acelerar la generación de tokens en modelos de gran tamaño: un rack LPX integra 256 LPUs LP30 y está diseñado para complementar plataformas GPU como Vera-Rubin NVL72, repartiendo el pipeline de inferencia entre prefill y decode para mejorar la interactividad y la eficiencia cuando se exigen cientos o miles de tokens por segundo.

La clave estratégica detrás de este movimiento es el time-to-market: Nvidia reconoce implícitamente que la adquisición/licencia de tecnología y talento asociado a Groq permitió poner hardware de inferencia especializado en manos de clientes en el mismo año, en un momento en el que la latencia y el coste por token se están convirtiendo en una métrica comercial crítica para AI agents y code assistants.

Nvidia Groq 3 LPX racks para inferencia de baja latencia: qué es y por qué importa

Nvidia posiciona LPX como un acelerador de inferencia de baja latencia centrado en la fase de decode (generación auto-regresiva). En ese tramo del proceso, el sistema necesita “streamear” parámetros activos desde memoria en cada token, y ahí las arquitecturas con SRAM on-chip pueden destacar por su ancho de banda y tiempos de acceso.

En paralelo, la compañía mantiene que las GPUs siguen siendo fuertes en throughput y batch, pero pierden eficiencia relativa cuando se dispara la interactividad por usuario. Con Nvidia Groq 3 LPX racks para inferencia de baja latencia, el objetivo es combinar lo mejor de ambos enfoques: GPUs para capacidad de memoria/compute y LPUs para alimentar operaciones limitadas por bandwidth durante el decode.

LP30 LPU: arquitectura y límites actuales

  • Fabricación: según lo comunicado, LP30 se fabrica en Samsung (no en TSMC).
  • Memoria: solo SRAM on-chip, con una capacidad indicada de 500 MB por LPU.
  • Compute: Nvidia atribuye a cada LP30 hasta 1.2 petaFLOPS en FP8.
  • Interconexión: 96 enlaces (112 Gbps SerDes) por chip, totalizando 2.5 TB/s bidireccionales.
  • Compatibilidad: el chip no usa NVLink, no incluye soporte de hardware para NVFP4, y no es CUDA-compatible en su lanzamiento.

Un punto relevante es la hoja de ruta de precisión: Nvidia indica que el soporte para formatos 4-bit tipo block floating point (menciona MX o NV FP4) se espera con LP35, previsto “en algún momento del próximo año”.

Nvidia Groq 3 LPX racks para inferencia de baja latencia: configuración del rack

Un rack LPX integra 256 LPUs distribuidas en 32 compute trays, con ocho LPUs por tray. Además, el diseño incluye lógica de expansión de fabric, DRAM, CPU host y una BlueField-4 DPU por tray como parte del conjunto orientado a operación en datacenter.

Parte de la conectividad se concentra en un backplane de cobre Ethernet denominado por Nvidia como Oberon ETL256, y el resto se expone para interconectar múltiples racks LPX y sistemas NVL72. El mensaje es claro: Nvidia Groq 3 LPX racks para inferencia de baja latencia no se conciben como una “tarjeta” o acelerador aislado, sino como un elemento rack-scale para clusters.

Cómo se reparte el trabajo entre GPUs y LPUs

En el diseño de referencia descrito por Nvidia, una fracción de GPUs realiza el prefill (prompt-processing) por su demanda de compute, mientras que el decode se reparte entre un pool de GPUs y las LPUs. En esa etapa, las GPUs asumen operaciones de attention (por capacidad de memoria y compute), y parte de las operaciones feed-forward más condicionadas por el ancho de banda se descargan a LPUs a través de Ethernet. La orquestación recae en Nvidia Dynamo, su plataforma de disaggregated inference.

Escala necesaria: del rack único a modelos de un billón de parámetros

Nvidia Groq 3 LPX racks para inferencia de baja latencia apuntan a la gama alta del mercado: la propia compañía sugiere que el número de racks necesarios escala con el tamaño del modelo y la precisión de los pesos. Para un modelo de un billón de parámetros, la estimación publicada se mueve entre cuatro y ocho racks LPX, es decir, entre 1.024 y 2.048 LPUs, dependiendo de si los pesos se almacenan en SRAM en 4-bit u 8-bit.

La relación GPU/LPU variará por cargas: contextos más grandes, mayor batch o más concurrencia exigen más GPUs, entre otros motivos por el tamaño del KV cache y el coste de atención. Un chatbot generalista podría encajar en una sola unidad, según el planteamiento expuesto, pero el foco comercial explícito son builders y service providers que quieran servir modelos “trillion-plus” con tasas de 500 a 1.000 tokens por segundo.

Speculative decoding: la puerta a un mercado más amplio

Más allá de la inferencia pura sobre LPX, Nvidia también plantea el uso de LPUs como aceleradores para speculative decoding: alojar un draft model rápido en LPUs y el modelo objetivo en GPUs, acelerando la generación cuando el borrador acierta y revirtiendo al modelo grande cuando falla, sin pérdida de calidad. La compañía sugiere que, por el tamaño típico de esos draft models, podría existir un espacio para que Nvidia Groq 3 LPX racks para inferencia de baja latencia (o derivados) terminen llegando a más entornos enterprise, aunque el producto actual se percibe como hyperscaler-class.

CPX, STX y SPX: el “rack-scale” como línea de ensamblaje

LPX no llega solo. Nvidia también presentó otros diseños rack-scale orientados a CPU, almacenamiento y networking. La compañía confirmó además que el proyecto Rubin CPX (una variante con GDDR7 para optimizar el time-to-first-token en grandes entradas) ha perdido prioridad en favor de LPX, aunque ejecutivos de Nvidia señalaron que el concepto podría volver en generaciones futuras.

En el resto de la cartera, Nvidia describe: un rack de CPUs Vera para cargas agentic, un rack de almacenamiento BlueField-4 STX para offload de KV cache y un rack de red Spectrum-6 SPX para simplificar el cableado y la integración con switches Spectrum-X y Quantum-X. El encaje final es una arquitectura de extremo a extremo: agentes en CPU, modelos en GPU, decode acelerado con LPUs y memoria de contexto descargada a storage.

Fuentes y enlaces oficiales

Con este movimiento, Nvidia Groq 3 LPX racks para inferencia de baja latencia se consolidan como una apuesta por la especialización dentro del datacenter de AI: no reemplazan a las GPUs, pero sí pretenden recortar latencia y mejorar la eficiencia del decode cuando la industria empuja hacia modelos más grandes, más “razonadores” y con mayor demanda de tokens por segundo en experiencias interactivas.

Compartir:

Déjanos tu comentario

Scroll al inicio