AWS ha encendido la siguiente fase del hardware para IA en la nube: Trainium4 integrará NVLink Fusion de Nvidia para unir chips y racks como si fueran un único acelerador. La promesa es clara para centros de datos y cloud computing: más rendimiento (hasta 6x), menos fricción en la interconexión y clústeres de entrenamiento a una escala inédita.
Lo anunciado en re:Invent
En re:Invent (Las Vegas), Amazon Web Services adelantó Trainium4, su próxima generación de aceleradores de IA, que adopta NVLink Fusion para comunicaciones chip a chip y entre racks. La interconexión permitirá entrenar modelos fundacionales y de IA generativa como si todo el clúster fuese un único dominio de cómputo, reduciendo cuellos de botella en redes y mejorando la eficiencia de entrenamiento a gran escala.
NVLink Fusion: de tecnología propietaria a interconexión abierta
NVLink es la interconexión de alta velocidad de Nvidia para compartir datos entre aceleradores con baja latencia y alto ancho de banda. Tradicionalmente ligada a GPUs Nvidia, en Computex se anunció NVLink Fusion para abrir el ecosistema a terceros. AWS se posiciona entre los primeros adoptantes, alineando su hoja de ruta de hardware con una interconexión cada vez más estandarizada para IA.
Arquitectura y conectividad: de chip a rack
Amazon afirma que Trainium4, sus CPUs Graviton y la red EFA (Elastic Fabric Adapter) se comunicarán sin fisuras a través de racks MGX de Nvidia, creando un tejido de datos coherente entre hardware heterogéneo. En su generación actual, NVLink (Gen5) ofrece hasta 1,8 TB/s de ancho de banda por GPU, con una hoja de ruta que apunta a 3,6 TB/s el próximo año, reforzando la capacidad de mover parámetros y activaciones de modelos a gran velocidad.
Rendimiento esperado y dudas por despejar
Según AWS, las cifras preliminares de Trainium4 apuntan a 3x más FLOPS en FP8, 6x en FP4 y 4x en ancho de banda de memoria. No está claro si estas mejoras corresponden a un acelerador individual o a configuraciones de la familia Trainium en UltraServers, por lo que quedan detalles por confirmar a nivel de SKU y topologías de clúster.
Comparativa con Trainium3
En la generación anterior, Trainium3 ya había mostrado 144 GB de memoria HBM3E, ~4,9 TB/s de ancho de banda y más de 2,5 petaFLOPS en FP8. Extrapolando estas métricas a Trainium4 en UltraServers, el rendimiento podría superar los 2 exaFLOPS en FP4 y acercarse a ~2,8 PB/s de ancho de banda agregado de memoria, cifras que, de confirmarse, marcarían un salto relevante para cargas de entrenamiento e inferencia a escala.
Escalado a hiperescala
La arquitectura de interconexión anunciada por AWS sugiere la posibilidad de concentrar hasta un millón de aceleradores en despliegues de producción, manteniendo el equilibrio con la red EFA propia de la nube de AWS. El objetivo: entrenar y evaluar modelos gigantes con mayor eficiencia de datos y tiempos de convergencia más cortos en entornos multirregión.
Ecosistema Nvidia + AWS: nuevas ofertas de cómputo
Además, AWS anunció la disponibilidad de ofertas basadas en el GB300 NVL72 de Nvidia, que se suman a las actuales instancias GB200. El mensaje es nítido: NVLink Fusion es una pieza clave en la próxima generación de infraestructura de IA en la nube, donde coexistirán aceleradores de Nvidia y de AWS en arquitecturas optimizadas para datos masivos, seguridad y rendimiento.
Impacto para IA en la nube y empresas
Para organizaciones que entrenan modelos de lenguaje, visión por computador o sistemas multimodales, la combinación de Trainium4, NVLink Fusion y EFA promete mejores costes por entrenamiento, más paralelismo y menor latencia de comunicación. Esto puede traducirse en ciclos de desarrollo más rápidos, mayor eficiencia energética y una plataforma más abierta para innovación en software y MLOps.
Qué falta por confirmar
AWS no detalló fechas de disponibilidad ni precios de Trainium4. También queda por precisar el alcance exacto de las mejoras (por chip versus por sistema), la configuración de memoria por acelerador y los perfiles de red en topologías a gran escala. Aun así, el movimiento marca un paso firme hacia una interconexión abierta de alto rendimiento que podría democratizar el entrenamiento y la evaluación de modelos a gran escala en AWS.



