Todas las CPU EPYC Rome colapsan tras 1.044 días funcionando, AMD no solucionará el problema
Los procesadores para servidores no conocen lo que son las vacaciones, ya que se diseñan para trabajar las 24 horas del día y los 7 días de la semana de forma continuada y sin parar. Pues bien, parece que las CPU AMD EPYC Rome a los 1044 paran su actividad en seco. ¿Por qué ocurre esto y cuáles son las consecuencias?
A día de hoy muchos negocios ofrecen servicios que se basan en tener una infraestructura de servidores conectada a internet. Lo hacen en todo el mundo sin descanso y el hecho de que las CPU de los mismos se paren cada cierto tiempo sin más remedio que un mantenimiento programado para el reinicio o prescindiendo de los métodos de ahorro de energía, pues no deja de ser un problema económico.
¿Por qué las CPU AMD EPYC Rome a 1044 días detienen su actividad?
En realidad no es todo el procesador que pasado dicho tiempo detiene su actividad, y lo que se produce es una parada y no un apagado. Es decir, su actividad queda parada en el tiempo. Según la propia AMD, este fenómeno ocurre cuando uno de los núcleos, por inactividad, es incapaz de despertar de nuevo. ¿Las causas por las cuales esto ocurre? Pues no se saben todavía, dado que no se ha dado todavía una explicación oficial al problema.
Hemos de tener en cuenta que los EPYC Rome de AMD se basan en la arquitectura Zen 2 y ya llevan algunos años a sus espaldas. Lo curioso es que el error se presente casi tres años después del último reseteo del sistema. Si bien un servidor está pensado para funcionar sin interrupción, es completamente normal que las diferentes partes del sistema tengan apagadas de mantenimiento programado de forma periódica.
Es más, al contrario que en los PC, un servidor moderno tiene mecanismos para guardar la información del estado de la RAM y de las líneas de caché del procesador para una recuperación inmediata. Ya sea por una bajada de tensión, una caída del sistema eléctrico o por un mantenimiento. Por lo que el problema no es tan grave como puede parecer a simple vista.
AMD no piensa dar solución
Y es que el problema no se encuentra en ningún firmware, ni tampoco driver, sino dentro de las entrañas del propio procesador. Teniendo en cuenta que en todo el tiempo, después el AMD EPYC Rome que a los 1044 días se congela, han sacado dos generaciones de sus procesadores para servidor. Una basada en Zen 3 y el otro en la arquitectura Zen 4 por lo que no existe ningún interés por parte de ellos de solventar el problema.
Más bien, el problema de base viene en la forma en la que cada uno de los núcleos gestionan el llamado estado CC6, el cual se da cuando se reduce el voltaje de un núcleo a 0 voltios. De cara a reducir el consumo energético esto hace continuamente en cualquier tipo de procesador a día de hoy. Sin embargo, el problema aquí radica en que pasado un tiempo determinado el subsistema encargado de esto es incapaz de reactivar el núcleo afectado por ello.
Es decir, el problema es leve por el hecho de que esto no ocurre cuando un núcleo está en activo, pero pasados esos 1044 días desde el último reinicio, si se ponen a dormir ya no despertarán. Es por ello que AMD por el momento recomienda desactivar el estado CC6, lo que evita que los diferentes cores del procesador se pongan a dormir.