Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow: qué compra realmente por 20.000 millones
Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow en un acuerdo valorado en 20.000 millones de dólares, estructurado como licencia no exclusiva de propiedad intelectual y traslado de talento clave. El objetivo industrial es claro: ganar tiempo y ventaja técnica en inference de LLM, donde la latencia, el throughput de tokens y la eficiencia energética son ya el principal campo de batalla en datacenter.
Según la información publicada por CNBC, Nvidia pagará 20.000 millones para licenciar la IP de Groq (incluyendo sus Language Processing Units, LPU, y librerías asociadas). Groq, por su parte, mantendría su negocio de inference-as-a-service, aunque con cambios relevantes de liderazgo y salida de personal hacia Nvidia, lo que refuerza la lectura de que es una adquisición “por la puerta de atrás” orientada a tecnología y equipo, con menor fricción regulatoria.
Qué implica que Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow
Que Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow no significa necesariamente que vaya a desplegar, tal cual, las LPUs actuales de Groq en su catálogo. El núcleo del interés estaría en una aproximación arquitectónica: un diseño programable tipo dataflow (que Groq describe como una “assembly line architecture”) pensado para ejecutar de forma determinista y eficiente las operaciones de álgebra lineal que dominan la inferencia. En vez de depender del patrón clásico de fetch/decode/execute y de cargas/almacenamientos constantes, el enfoque dataflow busca mover datos e instrucciones a través de unidades SIMD de forma continua, reduciendo esperas y cuellos de botella.
El artículo original también subraya que parte del debate público se ha centrado en la memoria: las LPUs de Groq se apoyan en SRAM y no en HBM, y eso ha alimentado teorías sobre una supuesta intención de Nvidia de “abandonar HBM”. Sin embargo, el análisis indica que SRAM no es una ventaja mágica por sí misma: es rápida pero poco densa, y en el caso de Groq el tamaño disponible (230 MB por LPU, según el texto) obliga a escalar a cientos de chips para modelos grandes. Por tanto, el valor de la operación se entiende mejor como apuesta por una técnica de ejecución (dataflow) y por una pila de software de inference, más que por un simple cambio de tecnología de memoria.
Rendimiento en inferencia: por qué el throughput de tokens manda
El rendimiento de inferencia de LLM está condicionado por dos fases: prefill (más dependiente de compute) y decode (normalmente dominada por memory bandwidth). En ese contexto, Groq ha destacado por tasas de generación de tokens elevadas en benchmarks públicos: el artículo cita mediciones de Artificial Analysis con cifras como 350 tokens/s en Llama 3.3 70B y hasta 465 tokens/s en modelos tipo mixture-of-experts en su servicio, siempre según esos reportes. Es importante remarcar que estas cifras se refieren a una plataforma concreta y no equivalen a una comparación directa “chip a chip” sin contexto de configuración, interconexión y tamaño de modelo.
La limitación clave sigue siendo la memoria efectiva para pesos y contexto. El texto original señala que Groq necesitó una gran cantidad de LPUs interconectadas para ejecutar Llama 70B, lo que ilustra por qué una arquitectura basada solo en SRAM puede tensionar el diseño de sistemas cuando se escala a modelos grandes y contextos extensos.
Por qué el foco no es “SRAM vs HBM”, sino dataflow + software
La lectura estratégica es que Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow porque Nvidia necesita nuevos “levers” de rendimiento. En GPU, muchas mejoras ya están amortizadas (más HBM, más SMs, mejores interconexiones, mejores kernels), y cada ganancia incremental cuesta más. Un diseño dataflow bien implementado podría mejorar el rendimiento real (no solo peak FLOPS) en cargas de inferencia, con beneficios en eficiencia por vatio y predictibilidad de latencia.
Además, dataflow no está atado a SRAM. Existen enfoques dataflow que integran HBM; por tanto, licenciar IP de Groq podría servir como base para futuros aceleradores que combinen la filosofía dataflow con otras tecnologías de memoria, empaquetado y redes, alineándose con la manera en que Nvidia construye plataformas completas de datacenter.
Dónde encaja en el roadmap de Nvidia: inference “desagregada” y especialización
El artículo recuerda que Nvidia está empujando una separación funcional en inferencia: chips o bloques optimizados para prefill y otros para decode. Se menciona que, a partir de la generación Rubin (con referencias a Rubin CPX), la compañía pretende acelerar específicamente el prefill para liberar recursos de HBM para el decode. En ese marco, licenciar IP de Groq podría aportar opciones para piezas muy especializadas de la tubería de inferencia, incluyendo escenarios donde el objetivo sea maximizar throughput con latencias bajas y coste por token competitivo.
Una hipótesis técnica que aparece en el texto es el uso potencial como acelerador para speculative decoding, una técnica que combina un “draft model” pequeño con un modelo grande para aumentar el rendimiento cuando las predicciones del modelo pequeño se validan. Dado que estos modelos borrador suelen ser de menor tamaño, la restricción de memoria podría ser más manejable, aunque el artículo deja claro que el encaje exacto es todavía especulativo.
Regulación y estructura del acuerdo: “licencia” para esquivar scrutiny
Uno de los puntos más sensibles del movimiento es cómo se estructura: Nvidia no compra Groq oficialmente, sino que licencia su IP de forma no exclusiva. Sin embargo, el texto afirma que el acuerdo incluye el traspaso del CEO Jonathan Ross y del presidente Sunny Madra, junto con gran parte del talento de ingeniería, lo que en la práctica se parece a una adquisición de tecnología y equipo. Este tipo de estructura puede reducir fricción, pero también eleva el riesgo de escrutinio antitrust si se interpreta como eliminación de competencia por vías indirectas.
Qué pasa con la teoría de “diversificación de foundry”
El análisis también descarta que el gran premio sea acceso a capacidad de fabricación. Groq ha fabricado con GlobalFoundries y planea nodos de Samsung para su próxima generación, mientras que Nvidia depende en gran medida de TSMC (y su packaging avanzado). Pero la conclusión es que licenciar IP y fichar un equipo no desbloquea capacidad de foundry de manera inmediata; son decisiones industriales con plazos largos y condicionadas por yield, packaging, supply chain y acuerdos de volumen.
Impacto para el mercado: más presión en inference y en el coste por token
Si Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow y logra integrarla en su ecosistema, el impacto puede ir más allá del silicio: podría traducirse en nuevas bibliotecas, compiladores, runtimes y modelos de despliegue para inference, reforzando el control de Nvidia sobre el “compute stack” de AI. En la práctica, esto incrementa la presión sobre rivales de aceleración de inferencia y sobre proveedores de cloud que buscan alternativas para bajar el coste por token sin depender de una única plataforma.
En el corto plazo, el mercado seguirá mirando dos métricas: disponibilidad (suministro de GPUs/aceleradores) y eficiencia en inferencia (latencia, tokens/s, $/token). Una operación de 20.000 millones por IP y talento sugiere que Nvidia considera que el siguiente salto competitivo no será solo “más GPU”, sino nuevas arquitecturas y especialización profunda de la inferencia.
Fuentes y enlaces oficiales
A falta de detalles públicos sobre integración de producto, Nvidia licencia tecnología de Groq para aceleradores de inferencia dataflow como una jugada de arquitectura y de talento: acelerar un enfoque dataflow difícil de ejecutar, sumar un stack de inference y ganar opciones para la próxima fase de la carrera por el datacenter de AI.



