NVIDIA H100, la GPU que muestra el rendimiento oculto de las RTX 40

Es realmente increíble pensar en dónde estamos ahora con la tecnología actual. Si hacemos una recapitulación básica por millones de transistores y disposiciones arquitectónicas, la mejor GPU que tendrá NVIDIA por al menos los próximos 18 meses, la Hopper H100, tiene en un solo GPC el chip entero de una GTX 780 Ti. Es decir, hay ocho GTX 780 Ti en un solo chip fabricado ahora en el nodo 4N de TSMC para NVIDIA, donde además como es lógico tanto la arquitectura como la velocidad son mucho mejores.

NVIDIA-Hopper-H100-GPU-9

Con esta muestra de avance impresionante, no solamente en reducción del tamaño y área del chip se presentó NVIDIA a mostrar lo que es capaz de conseguir su última tarjeta gráfica para servidores, IA y Deep Learning, su H100, donde parece que habrá sorpresa final en sus variantes gaming RTX 40.

Rendimiento de la NVIDIA Hopper H100, un monstruo que escondía muchas mejoras

NVIDIA-Hopper-H100-GPU

Aunque Hopper y Ada Lovelace compartirán algunas cuestiones realmente relevantes, como su nodo y su arquitectura básica, así como las mejoras de la misma, tónicamente tienen diferencias, sobre todo en tipos de unidades, cachés, interfaces y otras tecnologías. Así que vamos a hacer un listado rápido para entrar directamente en faena como se suele decir:

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM por GPU completa.
  • 128 FP32 CUDA Cores por SM, 18.432 FP32 CUDA Cores por GPU completa.
  • 4 Tensor Cores de cuarta generación por SM, 576 TS por GPU completa.
  • 6 pilas HBM3 o HBM2e, 12 controladores de memoria de 512 bits.
  • 60 MB de caché L2.
  • NVLink de cuarta generación y PCIe Gen 5.

Este sería el chip al completo, el cual no existe como tal porque el H100 es una versión recortada en prestaciones, seguramente porque NVIDIA se guarda ese as en la manga y de paso, da tiempo a TSMC a aumentar el número de chips hábiles por oblea en el nodo 4N, ya que barato no va a ser (+-50.000 dólares por unidad).

Por lo tanto, el H100 se queda con la siguiente configuración, la cual se asemeja en gran parte a la RTX 4090:

  • 8 GPC, 66 TPC, 2 SM/TPC, 132 SM por GPU.
  • 128 núcleos FP32 CUDA por SM, 16.896 núcleos FP32 CUDA por GPU.
  • 4 Tensor Cores de cuarta generación por SM, 528 TS por GPU.
  • 80 GB HBM3, 5 pilas HBM3, 10 controladores de memoria de 512 bits.
  • 50 MB de caché L2.
  • NVLink de cuarta generación y PCIe Gen 5.

Salvando las diferencias entre ambos chips, que son bastantes, la clave aquí va a estar en lo que NVIDIA ha conseguido no tanto por arquitectura en sí misma, que también, sino en el hecho de lo que han mostrado con los Tensor Cores de cuarta generación.

NVIDIA duplica el rendimiento en los Tensor Cores y logra un 30% más de frecuencia

Y es que si tenemos en cuenta la arquitectura por sí misma deberíamos ver un aumento del rendimiento de algo más del 70% como ya hablamos hace 3 semanas. La frecuencia ha escalado nada menos que un 30%, números muy parecidos a los que se esperan en la RTX 4090 casi con iguales Shaders totales, así que la comparativa en este aspecto va por buen puerto.

Por lo tanto y aunque no tenemos todavía confirmado el número de Tensor Cores de las RTX 40 en ninguno de sus modelos, lo que sí que podemos intuir según los datos facilitados por NVIDIA para la H100.

NVIDIA-Hopper-H100-GPU-7

Las prestaciones de los Tensor Cores se han duplicado, lo que significa que NVIDIA tiene un as guardado bajo la manga con DLSS en los juegos que dispongan de él, y ahí puede que sí que consiga un 100% más de rendimiento con las RTX 40 frente a las RTX 30.

Es un escenario parcial en el sentido de que aunque cada vez más juegos implementan compatibilidad con DLSS 2.0, el cual se ha mostrado superior a FSR de AMD en sus diferentes versiones, así que es más que probable que NVIDIA empuje todavía más la implementación en títulos nuevos con esta tecnología.

NVIDIA-Hopper-H100-GPU-8

 

Quizás el siguiente paso sea la activación por defecto de la misma mediante el driver, pudiéndose desactivar desde el mismo y no dando la opción dentro del juego, por lo que en términos comparativos frente a otros rivales, de hacerse, significaría una desvirtualización de las diferencias, pero sin duda al igual que podría pasar con el Ray Tracing, da la impresión de que el camino podría ir por esos lares, algo que también podría hacer AMD, dado que son beneficiosos y normalmente no perjudiciales para el rendimiento y la calidad visual.