Filtrados detalles de la arquitectura Nvidia Turing (GeForce RTX)

Videocardz ha filtrado lo que dice ser un muy corto resumen de una documentación que se hará oficial el 14 de septiembre que hablará en profundidad de la arquitectura Nvidia Turing que da vida a las Nvidia GeForce RTX. Como tal, sólo se ha publicado lo que es relativamente más importante.

Características principales de Turing

Núcleos/Cores INT32 (ejecución simultánea de instrucciones en coma flotante e integral)

La arquitectura Turing agrega una nueva unidad de ejecución (INT32). Esta unidad permitirá a las GPUs basadas en Turing ejecutar procesos de coma flotante y no flotante en paralelo. Nvidia afirma que, en teoría, esto debería proporcionar un rendimiento adicional del 36 por ciento en todas las operaciones de coma flotante.

La ejecución en paralelo será posible gracias a la nueva arquitectura unificada para memoria compartida L1 y el almacenamiento en memoria caché de texturas. Nvidia afirma que el diseño del núcleo de INT32 / FP32 y otros cambios al nuevo multiprocesador de transmisión proporcionan "una mejora en el rendimiento del 50 por ciento respecto a cada núcleo CUDA".

 0

Nuevos avances en el sombreado (Shading Advancements)

  • Mesh Shading / Sombreado de malla: nuevo modelo de sombreado para vertex, tesselation, sombreado de geometría (más objetos por escena).
  • Variable Rate Shading (VRS) / Sombreado de tasa variable: control del desarrollador sobre las tasas de sombreado (para limitar el sombreado donde no proporciona beneficio visual).
  • Texture-Space Sharing / Espacio de textura compartido: almacena los resultados de sombreado en la memoria (no es necesario duplicar el trabajo compartido para los procesos).
  • Multi-View Rendering (MVR) / Renderización de múltiples vistas- Extiende el Pascal Single Pass Stereo a múltiples vistas en un solo pase

Compresión de memoria en Turing

La arquitectura de Turing ofrece nuevas técnicas de compresión de memoria sin pérdida de calidad. Nvidia afirma que sus mejoras adicionales a los algoritmos "de vanguardia" de Pascal han proporcionado (en palabras de Nvidia) un "aumento del 50% en el ancho de banda efectivo en Turing en comparación con Pascal".

Motor de vídeo y pantalla

El nuevo motor de vídeo es compatible con el estándar DisplayPort 1.4a (8K a 60 Hz). Las tarjetas gráficas Turing pueden controlar hasta dos pantallas 8K a 60 Hz (ya sea a través de DP o USB-C). El nuevo motor incorpora un codificador NVENC mejorado (puede codificar H.265 stream a 8K @ 30 FPS) y un nuevo decodificador NVDEC con soporte HEV YUV444 10/12b HDR, H.264 8K y VP9 10/12 HDR.

NVLINK (solo de 2 vías)

El silicio TU102 presenta dos puertos NVLINK x8 de 2ª Generación, mientras que el TU104 está equipada con un solo enlace x8. El TU106 no es compatible con NVLINK (nada de instalar dos GeForce RTX 2070). El uso de este puerto marca la muerte del conector SLI y la posibilidad de crear configuraciones Multi-GPU de más de dos tarjetas gráficas.

Silicio Nvidia TU102 vs TU104 vs TU106

La Nvidia GeForce RTX 2070 es la única tarjeta gráfica de la nueva serie que utiliza todo el silicio. La mayor de las sorpresas es esa, que no usa un silicio TU104 recordado, sino que usará el silicio TU106, menos potente, al completo.

En cuanto a las especificaciones, Turing TU102 esencialmente duplica las especificaciones del TU106. El TU104 es el único chip de Turing que presenta cuatro TPC por clúster (a diferencia del TU102 y TU106, que tienen 6 TPC por GPC). Debido a que el TU106 da vida a una GeForce 2070, se podría pensar que es un silicio de gama media, pero es 131 mm2 más grande que el silicio Pascal GP104, lo que fácilmente podría haber sido un chip de gama alta.

GPUs NVIDIA TURING
TU102 TU104 TU106
Proceso de Fabricación 12nm FFN 12nm FFN 12nm FFN
Tamaño del Die  754 mm2  545 mm2  445 mm2
Transistores  18.600M  13.600M  10.600M
GPU que da vida Quadro RTX 6000 Quadro RTX 5000 GeForce RTX 2070
GPCs  6  6  3
TPCs  36  24  18
SMs  72 (12 por GPC)  48 (8 por GPC)  36 (12 por GPC)
Tensor Cores  576  384  288
RT Cores  72  48  36
FP32 Cores (CUDAs)  4.608  3.072  2.304
INT32 Cores  4.608  3.072  2.304
ROPs  96  64  64
TMUs  288  192  144
Interfaz de Memoria  384 bits  256 bits  256 bits
L2 Cache  6144 KB  4096 KB  4096 KB

Artículos relacionados