Nvidia detalla toda la información que se esconde detrás de la arquitectura Ampere de las GeForce RTX 30
Nvidia escogió la pasada medianoche para liberar información adicional en torno a la arquitectura que da vida a sus gráficas GeForce RTX 30 Series, la cual ha generado un interés muy alto entre los gamers, un interés que no veíamos desde las GeForce GTX 10 Series, para qué negarlo, y el motivo es más que evidente: un notable salto de rendimiento y precios mucho más económicos respecto a las GeForce RTX 20 Series, las cuales llegaron a precios muy altos debido a grandes novedades centradas en el RayTracing mientras que a nivel de potencia no hubo un gran salto.
Uno de los detalles más interesantes está en los silicios que dan vida a estas GPUs, los cuales emplean un proceso de fabricación de Samsung de 8nm que dejan al descubierto las carencias de las compañías y que va un paso por detrás que TSMC. Esto se debe a que los 8nm tienen una densidad del transistor de 44.6MT/mm² en el silicio GA102 de las GeForce RTX 3090/RTX 3080 (44,33MT/mm² en el GA104 de la GeForce RTX 3070). Como ejemplo, los 7nm de TSMC que dan vida al silicio tope de gama, el GA100, tiene una densidad de nada menos que 65,37 MT/mm², una diferencia del 47 por ciento. TSMC, con sus 12nm FinFET empleados en las GeForce RTX 20, ofrecía 24,67 MT/mm².
Con el diagrama del silicio GA102 de la Nvidia GeForce RTX 3080 podemos el gran salto de rendimiento que se ha realizado frente a la GeForce RTX 2080 SUPER, donde el detalle más importante es que se ha pasado de 3072 a 8704 CUDA Cores, lo que implica pasar de un rendimiento FP32 de 11 @ 30 TFLOPs.
RT Cores / Núcleos RT
Las Nvidia GeForce RTX 30 Serie integran los núcleos RT de segunda generación, que son los encargados de traer mejoras de rendimiento para el RayTracing generando un menor impacto sobre el rendimiento de los juegos al activarlo. Los núcleos RT tienen una jerarquía de volúmenes límite (BVH) basada en hardware puro que mejora enormemente el rendimiento con respecto al enfoque tradicional y minimalista con los procesadores de flujo SIMD.
El núcleo RT de segunda generación de Ampere añade un componente de interpolación triangular a lo largo de una escala de tiempo, en coordinación con la unidad de intersección triangular a la arquitectura del núcleo RT. Según Nvidia, esto debería ser útil durante los efectos de desenfoque de movimiento con el trazado de rayos en tiempo real activado.
Tensor Cores / Núcleos Tensor
La integración de los Tensor Cores de 3ª Generación copia en gran medida el diseño de la GPU tope de gama de la compañía, la Nvidia A100. Este núcleo es vital para un mayor desempeño a la hora del reescalado de la resolución mediante Inteligencia Artificial, es decir, la tecnología Nvidia DLSS para juegos.
Los Tensor Core de la arquitectura Ampere están diseñados para aprovechar la escasez en las redes neuronales de aprendizaje profundo. Se trata de un proceso de reducción de las matrices sin afectar a su precisión. Este proceso puede mejorar el rendimiento de la IA en un orden de magnitud.
Nvidia RTX IO
Lo sentimos Sony, la PC Master Race también verá como a su SSD se le sacará mucho más provecho gracias a esta tecnología que permite aumentar el rendimiento de nuestra unidad de almacenamiento, y básicamente, la GPU hará ahora el trabajo que hacía la CPU, mejorando así el desempeño. Se recomienda su uso con una unidad NVMe PCI-Express 4.0, por lo que por ahora, es desempeño máximo es exclusivo para usuarios con CPUs AMD.
En esencia, con esta tecnología, nuestra GPU permitirá la descompresión de los activos de los juegos de nueva generación, acelerando el rendimiento de I/O - E/S en hasta 100 veces en comparación con los discos duros tradicionales y las API de almacenamiento tradicionales. De esta forma, un juego que aprovecha esta API, originalmente diseñada para la Xbox Series X, libera dicha carga de trabajo de los núcleos de la CPU a los núcleos de la GPU GeForce RTX, lo que mejora la velocidad de fotogramas mientras que permite la carga casi instantánea de los juegos y abre la puerta a una nueva era de juegos de mundo abierto de gran tamaño e increíblemente detallados.
Esta tecnología se resume en un mayor rendimiento pese al uso de texturas de alta calidad, decir adiós al popping, tearing, y la calidad visual no se ve afectada, ya que se ejerce una descompresión sin pérdidas basada en la GPU, lo que permite que las lecturas a través de la API DirectStorage permanezcan comprimidas mientras se entregan a la GPU para su descompresión. Esto elimina la carga de la CPU, trasladando los datos del almacenamiento a la GPU en su forma más eficiente y comprimida, y mejorando el rendimiento de I/O - E/S en un factor de 2x.
Memoria GDDR6X
Esto es muy simple, la memoria para GPUs más rápida del mundo es exclusiva de Nvidia. Estas memorias alcanzan un rendimiento máximo de 21 GHz, pero la GeForce RTX 3090 se contentó con alcanzar los 19.5 GHz mientras que GeForce RTX 3080 alcanza los 19 GHz, así que está por ver cuánto más se pueden exprimir por overclocking para tener una mejora extra de rendimiento, ya que a dicha velocidad podemos alcanzar un ancho de banda de 1 TB/s (vs 963 GB/s para la RTX 3090), algo esencial para que la GPU tope de gama de la compañía pueda moverse a resoluciones 8K.
Eficiencia
El proceso de fabricación de 8nm de Samsung genera un impacto en la eficiencia energética de la arquitectura Ampere, pero Nvidia también ha realizado diversos cambios. Algo confusas son las afirmaciones de Nvidia de que las nuevas tarjetas gráficas GeForce RTX 30 son hasta un 90 por ciento más eficientes que sus predecesoras de Turing. Hay que mirar con atención el diagrama correspondiente para poder distinguir entre las cifras publicadas por Nvidia y el aumento real de la eficiencia.
Nvidia toma un framerate de 60 FPS como valor base y toma los 240 W necesarios para una tarjeta Turing para alcanzarlos. Este se compara con el consumo de energía necesario para alcanzar los 60 FPS con una GPU Ampere, que es de 130W. De 240 a 130W, nos da ese 90% de eficiencia. Si hacemos un cálculo distinto, del rendimiento ofrecido por 240W, hablaríamos de 60 vs 90 FPS, lo que se traduce en un 50% de potencia extra por vatio consumido, que tampoco está nada mal.
PCB de las Nvidia GeForce RTX 3090 / GeForce RTX 3080
Bastante corto, todo muy compactado y con un VRM de 20 fases de alimentación. Esto se traduce en una gran cantidad de calor en un tamaño de espacio muy comprimido, y es por ello que se requieren de enormes sistemas de refrigeración para que todo funcione a la perfección. Adicionalmente, el ya archifamoso conector Microfit de 12 pines para alimentar la GPU con hasta 300W de potencia, mientras que los modelos Custom emplearán hasta 3x conectores PCI-Express de 8+8+8 pines para exprimir todo el potencial.