El Burning Out llega a AMD, no hay Ryzen 7000 o placa base a salvo de quemarse
Desde este fin de semana hemos estado tratando un tema que seguro a muchos les trae de cabeza: el llamado Burning Out de AMD. Este no es más que el hecho de que las placas base y las CPU Ryzen 7000 se están quemando, y no se sabe el porqué, aunque ahora hay respuestas oficiales y una serie de teorías que van cobrando fuerza. ¿Hay solución? ¿Está tu placa base y CPU a salvo? Pues no, realmente no, pero daremos unas directrices para intentar que no te ocurra.
Bien, la historia es compleja y por ello vamos a resumirlo brevemente para que, si no estás al día, entiendas el "cacao mental" que reina ahora mismo en Internet, porque nada está claro, y esa es una premisa que debes comprender de entrada. Hace dos semanas el overclocker Der8auer mostró una CPU de un usuario, la cual se desoldó sola, muriendo en el acto. Esto es relevante, porque sin saberlo fue el primer caso de muerte por todo lo que vamos a ver ahora.
AMD Burning Out, así están muriendo las placas y las CPU Ryzen 7000
No hay procesador a salvo o placa base que no pueda quedar afectada, es la triste verdad en esto. No hay acotamiento de si es cosa de unos o de otros más allá de unas declaraciones de ASUS que ponen un poco de contexto a lo que vimos ayer en profundidad.
Lo primero que hay que saber de este tema con ASUS es que, como vimos, hicieron desaparecer las últimas BIOS, mientras que hoy están subiendo nuevas, las cuales, ahora contienen mecanismos de monitoreo térmico que han implementado para "proteger" las placas y las CPU. Además de esto, y como avanzamos hace dos semanas, tanto ASUS como AMD están trabajando con el tema de los voltajes.
ASUS ha eliminado de las BIOS el control manual del Vcore para los Ryzen 7000X3D y la compañía trabaja con AMD en la definición de nuevas reglas para EXPO y el voltaje SoC, y aquí se dispara todo y para mal. Hay múltiples fuentes de toda la información que vamos a ver, así que, junto a estas, iremos mezclando lo que hemos estado investigando nosotros mismos con el sistema de Pinout para lanzar argumentos y conclusiones generales entre todos.
Un problema que afecta a cualquier CPU Ryzen 7000
Y es que ese es el gran peligro. No es una cosa de los Ryzen 7000X3D como tal, sino de cualquier CPU Zen 4 actual, sea con caché vertical o no. Hay casos de 7700X, 7900X, 7950X3D, 7800X3D y así podemos seguir con todo el listado de CPU. Además, no hay un modelo de placa base en concreto afectado, ya que todas las marcas están teniendo problemas y aquí podemos leer ASUS, GIGABYTE, ASRock, MSI o Biostar, por ejemplo.
Con este panorama, donde nadie está a salvo... ¿Qué está ocurriendo? La respuesta corta es que no hay una conclusión, pero sí indicios, así que vamos a hilarlos todos para daros unos argumentos generales de hacia dónde está virando todo y que ASUS ya ha nombrado en su comunicado.
En primer lugar, como se ha hecho desde Igor's Labs, ayer estuvimos cruzando las zonas afectadas de las CPU con el PinOut de las CPU Ryzen 7000 que ofrece AMD. Las conclusiones son bastante simples, y es que en las zonas donde se ha llegado a abombar o a quemar el PCB por la parte de los pines de contacto corresponde a la perfección con dos zonas a tratar: I/O Die y CCD.
¿Qué les afecta? Pues todos los pines y las zonas circundantes de los mismos están rodeados por una gran cantidad de contactos que suministran voltaje, sea a cualquiera de los dos dies. Es lo que se conoce como VDDCR. Llegados aquí, entran las teorías de los posibles fallos a tener en cuenta.
¿Qué está causando que el voltaje rompa las CPU y placas base?
Teorías a tener en cuenta y que adelantamos que, seguramente, no sean ciertas:
- Pines defectuosos.
- Un mal montaje.
- Partida de sockets con problemas.
- Problemas de diseño de la plataforma.
Los motivos para descartar estas teorías que ya se están escuchando en Internet son los siguientes. En primer lugar, y por orden, no hay pines defectuosos en las placas base analizadas. Los pines en algunos casos ni siquiera se han marcado, mucho menos doblado, están en una posición perfecta con un ángulo y contacto perfecto, así que partimos de que estaban bien en el momento de montar la CPU.
El mal montaje también se descarta, principalmente porque el socket solo tiene una postura. Se descarta también partículas, como polvo, que puedan haber hecho contacto entre pines, principalmente porque hay unidades de CPU que han muerto por su I/O Die y otros por sus CCD, en algunos casos hay tocados dos CCD. La probabilidad de que sea un corto por una partícula sólida que conduzca la corriente es extremadamente baja por la casuística comentada.
La partida de Sockets con problemas también se descarta por varios motivos. El primero porque todos los fabricantes sufren los problemas en sus modelos de placas base. Y el segundo y más importante, es porque las fechas de fabricación de esas placas base se espacian demasiado en el tiempo, y esto nos lleva al último punto.
Problemas con el diseño de la plataforma. Si esto fuese así, hubiesen fallado al poco de lanzarse y no ahora, donde los problemas están saliendo desde hace poco más de dos semanas, así que hay otros factores a tener en cuenta, que, descartadas las teorías de Internet con "gorrito de plata inside", vamos a ver ahora.
Problemas con EXPO, SoC y firmware
No ha habido problemas de este calibre ni parecidos hasta que se dio el paso a AGESA 1.0.0.6, y en algunos casos 1.0.0.5C, pero también se puede ver de la manera contraria: a raíz de estos dos firmwares comenzó todo. No está claro qué está pasando aquí, pero sí que vemos que TODOS los fabricantes de placas base han borrado de un plumazo las BIOS antiguas de sus webs de soporte, dejando estos dos firmware como los descargables.
Así que algo hay aquí a tratar. Lo que se argumenta es que hay un problema con el voltaje SoC (el destinado al controlador de memoria en el I/O Die) que podría estar fallando al activar perfiles de RAM EXPO. Por supuesto, esto también es aplicable a cuando un usuario toca el VSoC manualmente para intentar estabilizar la RAM a mayor frecuencia o menor latencia, es decir, cuando hace overclock a este componente.
Entonces, ¿qué ocurre cuando se aplica un mayor voltaje por uno de estos motivos? Se argumenta que el voltaje excesivo en el SoC destruye los sensores térmicos y los mecanismos de protección térmica de los chips, en concreto, del I/O Die, permitiendo un sobrecalentamiento excesivo y provocando el fallo que hemos estado viendo. Es un efecto conocido como "bola de nieve", donde al no haber limitación el voltaje implica más temperatura, más temperatura implica más voltaje para mantener la estabilidad, eso provoca mayor temperatura y vuelta a empezar.
Por lo tanto, ¿es este el motivo por el cual se están quemando los Ryzen 7000 y las placas base? ¿Es esta la respuesta al Burning Out de AMD? Nosotros no lo tenemos tan claro, y nos explicamos.
Un problema más general y complejo
Nosotros creemos que hay varios problemas a tratar. En primer lugar, el Burning Out de los AMD Ryzen 7000 no se extiende solamente al VSoC, sino que afecta a los CPU_VDDCR_SOC y CPU VDD MSIC. Es decir, tal y como se ha visto, no es un problema del SoC únicamente, sino de los CCD, es un problema de regulación del voltaje en general y afecta a los pines que lo suministran.
Se han visto CPU muertas con distintas zonas quemadas, pero todas tienen encima un die, lógicamente, por lo tanto, el problema es general, no de algo específico en una zona concreta. En segundo lugar, es muy probable que esos die no tengan una soldadura estable, principalmente porque se habría "movido" tras calentarse, pero esto es llamativo, porque hablamos de más de 180 ºC sostenidos, posiblemente llegando a 200 ºC, lo cual produce el efecto visual de abombamiento en el PCB.
Si tenemos esto en cuenta, quiere decir que, como bien hemos comentado más arriba, todas las medidas de seguridad y de lectura están fallando en las CPU Ryzen 7000, así que la temperatura que podemos estar viendo en cualquier software de monitoreo, incluida la propia BIOS, seguramente se esté falseando. Pero no sabremos si esto es real o no, no sabremos si sufrimos el problema en nuestro PC hasta que metamos una sonda externa en contacto con el IHS para verificar que esté a una temperatura más o menos igualitaria a la que muestran los programas.
En cualquier caso, hay otro tema y último a tratar, ¿puede llegar una CPU a 200 ºC con un sistema de refrigeración activo? Nos referimos a un uso normal del PC, donde el disipador, AIO o bloque hagan su función correctamente. Teniendo en cuenta que las lecturas de la placa base o software estén mal, ¿es posible que, incluso al mínimo de RPM en los ventiladores, una CPU alcance con refrigeración activa los 200 ºC?
Las altas temperaturas de serie y el llevar la arquitectura al límite, ¿motivos para el Burning Out de AMD?
Lógicamente las CPU Ryzen 7000, como los Core 13 de Intel, están llevados al extremo para ganar la partida al rival. El overclock ha pasado a mejor vida para el usuario común porque presenta una ganancia muy corta más allá de empujar la memoria al límite. El problema es que, como seguro sabemos, estamos superando de media los 90 ºC en ambas plataformas sin demasiados problemas.
Con el Burning Out de AMD en concreto, hablamos de duplicar esa temperatura como poco. Aquí entra en juego otro punto que vimos ayer, los problemas con el estado S3 de suspensión. Lanzamos la teoría de la conspiración al aire como una causa a examinar para los fabricantes y AMD. ¿Es posible que el firmware esté ingresando en el S3 voltaje al I/O Die y a los CCD mientras está el PC en reposo? Ninguno de los afectados tenía overclock en sus procesadores, y sí tenían EXPO habilitado.
¿Está fallando el algoritmo PBO debido a una mala implementación o modificación de AGESA en el S3? Esta teoría se basa en algo muy simple, y es que ningún sistema de refrigeración usado por parte de los usuarios afectados es de gama baja, ni siquiera media.
Por lo tanto, alcanzar 200 ºC para derretir la soldadura significa que el voltaje está disparado en un momento donde el sistema de refrigeración no está activo, porque no parece sencillo que incluso al mínimo rendimiento de estos se logre alcanzar una temperatura tan elevada.
El último punto a tratar tiene que ver con todo esto: ¿podría ser que la soldadura no fuese correcta y con el paso de los ciclos térmicos se agriete, parta y deje de transmitir el calor al IHS haciendo inútil el sistema de disipación? En este caso, la refrigeración queda anulada, los die no podrían pasar el calor y se calentarían aún más, poco a poco, hasta llegar a la desgracia. Con el paso de los meses esto podría indicar que los mecanismos de seguridad fallasen por estar expuestos a tan altas temperaturas durante horas, días y semanas, degradando el silicio poco a poco y desembocando en lo que todos sabemos.
En cualquier caso, de momento y hasta la explicación formal por parte de todos, el Burning Out de AMD son solo eso, teorías, habrá que esperar a las explicaciones formales del tema por parte de AMD y los fabricantes de placas base. Entre tanto, ajustad los voltajes manualmente, quitad el perfil EXPO de vuestras memorias, y si podéis y sabéis, aplicad Undervolt al SoC y a la CPU, porque nadie sabe si vuestro procesador está a punto de morir. Mejor prevenir que curar.