Así es el Infinity Fanout Links de las nuevas gráficas AMD RX 7000
Una nueva filtración ha mostrado las bondades y parte de la explicación de por qué AMD ha podido aumentar su rendimiento por vatio en un 54% en sus nuevas GPU RX 7000. Y es que todavía no había datos concretos de la arquitectura como tal más allá de las diapositivas que la propia AMD sacó y de los datos que hemos tenido que dilucidar gracias a estas y que tenéis en el artículo de la arquitectura RDNA 3. Pero ahora y por fin, tenemos más datos del Infinity Fanout Links, la interconexión de los chiplets de las RX 7000. ¿Qué mejoras trae?
Pues no son demasiadas realmente, puede que menos de las que esperábamos para la primera arquitectura MCM pura en escritorio. Igualmente es interesante, porque hay detalles como el enrutado o los tiempos de acceso que nos dan una mejor perspectiva de hacia dónde se dirige AMD.
AMD RDNA 3 y Navi 31, el problema de una arquitectura MCM
Sacar los controladores de memoria y la Infinity Cache fuera del die principal y renombrarla como MCD tiene un problema que todo el mundo comprenderá: los tiempos de acceso. El problema de cualquier arquitectura MCM es precisamente la latencia que se genera al dejar un die solo (GCD) interconectado con otros muchos (o pocos, según el chip).
La tecnología se hace llamar Infinity Fanout Links, o Infinity Links para abreviar, y representa el enlace de los MCD con el GCD principal así como sus ventajas. La diapositiva superior muestra el Navi 31 como chip principal de la arquitectura al completo con tres puntos clave:
- Latencia.
- Frecuencia.
- Porcentaje de mejora.
En el caso de la latencia AMD comenta que el tiempo de conexión de Infinity Link vs el estar on-die dichos MCD es realmente modesto. No es lógicamente el mismo, pero aunque AMD no de datos concretos siempre va a haber un coste a pagar, aunque en este caso como veremos es mínimo.
¿Cómo va a reducir los de Lisa Su la latencia que se genera al sacar dos unidades importantes fuera del chip principal? Pues es bastante sencillo, aunque necesitaría una explicación más profunda realmente: Aumentando la frecuencia del Infinity Fabric en un 43% y de los clocks del GCD en un 18%.
Como se puede ver, el Infinity Fabric ha tenido que escalar más del doble que la velocidad de reloj centrales para paliar todo lo relacionado con la latencia, y aun así no se ha paliado en su totalidad. La ventaja es clave aquí, puesto que según AMD la latencia se ha reducido un 10% aproximadamente, frente a Navi 21, un buen margen de mejora que debe seguir reduciéndose en RDNA 4 para que nos acerquemos al rendimiento y latencia de una arquitectura monolítica como era RDNA 2.
Infinity Fanout Links y su rendimiento
Para conseguir todo lo anterior se tienen que dar unas conexiones físicas en el sustrato de alto rendimiento. Por ello, AMD confirma que Infinity Links está operando a con un rendimiento de 9,2 Gb/s, lo que equivale a una densidad por ancho de banda para los enlaces IFOP (Infinity Fabric On-Package) 10 veces mejor de lo conseguido en EPYC y Ryzen como CPU.
No tenemos datos de eficiencia energética en RDNA 3 para estos IFOP, pero sí que sabemos que en EPYC y Ryzen es de 2 pJ/b o menor, según la arquitectura y el chip. Es decir, en esta arquitectura esos datos deben ser de 0,2 pJ/b entre matriz y matriz, lo que explica que el consumo y el rendimiento no hayan disminuido, sino que han aumentado hasta el 54% comentado de rendimiento por vatio para RDNA 3 pese a ser MCM como arquitectura.
El ancho de banda ya lo comentamos con 5,3 TB/s, muy lejos de los 9 TB/s del Glink-3D, pero es el tope conocido para la tecnología Elevated Fanout Bridge o EFB en su versión 2.5D, elegida precisamente por ser suficiente para este chip y sobre todo, porque es barata frente a la opción de alto rendimiento de GUC.
Por último, comentar que Infinity Fanout Link ha conseguido esto con la mitad de Wires que la competencia, es decir 25 vs 50, lo cual por un lado simplifica el enrutamiento, pero por otro complica obtener el rendimiento dentro del propio sustrato debido a sus fugas de energía entre matriz y matriz (die vs die).
En definitiva y resumiendo, AMD se ha tenido que reinventar, porque lo conseguido no es sencillo y hacerlo de una manera barata para no aumentar los costos es tremendamente complejo. Aumentar 10 veces el ancho de banda de interconexión entre dies con la mitad de Wires en su enrutamiento es impresionante, como aumentar el clock del IF en un 43% sin comprometer apenas la latencia matriz frente a matriz. Esperemos que AMD siga soltando prenda con la arquitectura, porque visto lo visto los cambios no se quedan ahí dentro de RDNA 3 y son muy interesantes.