Emulación FP64 en GPUs Nvidia Rubin: hasta 200 TFLOPS para HPC, pero AMD duda de su fiabilidad

Emulación FP64 en Nvidia Rubin para HPC con aceleración en Tensor Cores y debate sobre precisión e IEEE compliance

Emulación FP64 en GPUs Nvidia Rubin: hasta 200 TFLOPS para HPC, pero AMD duda de su fiabilidad

Compartir:

Emulación FP64 en GPUs Nvidia Rubin: hasta 200 TFLOPS para HPC, pero AMD duda de su fiabilidad

La emulación FP64 en Nvidia Rubin para HPC se perfila como una de las apuestas más agresivas de Nvidia para cerrar la brecha histórica entre aceleradores orientados a AI y las exigencias de High Performance Computing (HPC). Según la compañía, al activar esta vía por software en sus librerías CUDA, Rubin puede alcanzar hasta 200 teraFLOPS de rendimiento FP64 en operaciones matriciales, muy por encima del FP64 nativo publicado para el chip, lo que reabre el debate sobre precisión, compatibilidad IEEE y aplicabilidad real en simulaciones científicas.

Qué promete la emulación FP64 en Nvidia Rubin para HPC

Rubin mantiene soporte de FP64 en hardware, pero Nvidia está empujando un enfoque adicional: usar emulación para “convertir” parte del músculo de cómputo de baja precisión (Tensor Cores) en rendimiento efectivo para cálculos FP64, especialmente en multiplicación de matrices. De acuerdo con cifras comunicadas por Nvidia en documentación pública, Rubin ronda 33 TFLOPS de FP64 pico en hardware, mientras que con emulación se habla de hasta 200 TFLOPS de FP64 en matrices, un salto que apunta directamente a cargas típicas de HPC basadas en DGEMM (Double-precision General Matrix Multiply).

Nvidia sostiene que, en sus estudios internos y con socios, la exactitud obtenida por emulación es competitiva frente a lo que se esperaría de un camino acelerado por hardware en Tensor Cores, al menos en los dominios donde este método resulta apropiado.

Fuentes oficiales y referencias técnicas

Por qué FP64 sigue siendo crítico en ciencia (aunque AI baje a FP8/FP4)

Mientras el entrenamiento e inferencia de modelos de Machine Learning aceleran la transición a precisiones como FP8, FP6 o FP4, FP64 sigue siendo el estándar de oro en simulación científica por su rango dinámico y tolerancia a acumulación de error. En dominios como dinámica de fluidos, modelado de materiales, química computacional o simulación de sistemas físicos, pequeñas desviaciones numéricas pueden propagarse y romper invariantes (conservación de masa/energía), degradando la validez del resultado final.

El punto de fricción es claro: el hardware moderno prioriza unidades extremadamente eficientes para baja precisión (Tensor Cores), mientras que FP64 vectorial suele quedar limitado a rutas menos densas y con menor throughput relativo.

El núcleo del enfoque: Ozaki scheme y FP64 “construido” desde INT8

La idea que impulsa la emulación FP64 en Nvidia Rubin para HPC no es nueva: emular precisión alta a partir de operaciones más simples (incluyendo enteros) existe desde décadas atrás. Lo novedoso es aprovechar la maquinaria masiva de Tensor Cores para ejecutar descomposiciones de operaciones FP64, con especial foco en álgebra lineal densa.

En 2024, investigadores japoneses publicaron un trabajo que reavivó este enfoque mostrando que ciertas operaciones FP64 sobre matrices pueden descomponerse en múltiples operaciones INT8, alcanzando mejor rendimiento que el FP64 nativo en determinados escenarios. Este método es conocido como Ozaki scheme y está relacionado con la dirección que Nvidia ha integrado en su ecosistema de librerías.

La objeción de AMD: precisión, IEEE compliance y “benchmarks vs mundo real”

Desde AMD, investigadores han advertido que el rendimiento de la emulación puede verse especialmente favorecido en sistemas numéricos bien condicionados (por ejemplo, HPL), pero que no es evidente que el mismo comportamiento se mantenga en simulaciones físicas complejas, códigos de combustión, ciencia de materiales o álgebra lineal con estructuras menos estables. En este tipo de cargas, pequeñas perturbaciones intermedias pueden amplificarse hasta alterar el resultado final.

Otro punto crítico: la emulación no necesariamente es IEEE-compliant en todos los detalles (por ejemplo, manejo de positivos/negativos ceros, NaN e infinitos con reglas estrictas). AMD sostiene que esa falta de cumplimiento completo complica la validación, porque en HPC el objetivo no es solo “ser más rápido”, sino obtener el mismo resultado que una ejecución FP64 tradicional.

Coste adicional: más operaciones y presión de memoria

Emular FP64 suele implicar más operaciones intermedias y, por tanto, más tráfico y consumo de memoria. AMD afirma tener datos que sugieren incrementos relevantes en capacidad usada durante la emulación en matrices, lo que introduce un trade-off: llega un punto en el que el overhead puede comerse parte del beneficio teórico de throughput.

El límite práctico: gran salto en DGEMM, menos impacto en vector FMA

Incluso asumiendo que la emulación sea suficientemente fiable en determinados dominios, su alcance no cubre todo el espectro HPC. La aceleración más clara se da en multiplicación de matrices densa, pero muchas cargas reales dependen más de vector FMA y patrones con fuerte dependencia de ancho de banda de memoria. En esas situaciones, el FP64 vectorial puede acabar ligado a unidades menos rápidas y, además, estar limitado por memoria antes que por cómputo.

Nvidia, por su parte, también enfatiza esta realidad: “más FLOPS” en papel no siempre se traduce en “más rendimiento útil” si la aplicación no logra alimentar el chip con datos a la velocidad necesaria. En ese contexto, el subsistema de memoria cobra protagonismo en el rendimiento efectivo.

Qué cambia en el mercado: AI chips que reclaman territorio HPC

El movimiento llega en un momento en el que los aceleradores AI dominan compras y roadmaps de datacenters, pero los centros de supercomputación siguen exigiendo garantías de reproducibilidad numérica, estabilidad y portabilidad. Si la emulación se consolida, Nvidia podría ofrecer una vía para elevar FP64 en escenarios concretos sin dedicar tanta superficie de silicio a FP64 tradicional, mientras AMD mantiene su argumento a favor de hardware especializado para doble precisión en cargas donde la emulación puede fallar o requerir validaciones más duras.

Conclusión

La emulación FP64 en Nvidia Rubin para HPC promete un salto notable en rendimiento FP64 para operaciones matriciales y puede alterar cómo se dimensionan futuros supercomputers basados en GPUs orientadas a AI. Sin embargo, el debate con AMD deja claro que el éxito no dependerá solo de los TFLOPS anunciados, sino de su comportamiento en aplicaciones científicas reales, su coste en memoria y la cercanía al cumplimiento IEEE cuando la precisión no es negociable.

Compartir:

Déjanos tu comentario

Scroll al inicio