AMD Epyc Rome bloque après 1 044 jours sans redémarrage

La deuxième génération de processeurs Epyc d’AMD plante au bout d’un certain temps. Le problème se pose pour les utilisateurs qui ont choisi de ne pas redémarrer un serveur équipé d’un processeur Epyc depuis près de trois ans.

AMD a découvert un nouveau bogue dans ses processeurs Epyc 7002 Rome. Ce sont les puces de deuxième génération pour centres de données d’AMD. Si vous utilisez des puces Epyc et que vous n’aimez pas redémarrer, vous allez peut-être être obligé de le faire après presque trois ans. AMD explique qu’après environ 1 044 jours de fonctionnement, les cœurs d’une puce sont confrontés à un bogue qui les fait planter.

Le bogue est dû à un noyau qui ne peut pas se réveiller de l’hibernation CC6 après 1 044 jours. Le moment exact où le problème se produit dépend des configurations individuelles. Si le bogue se produit, il est nécessaire de réinitialiser le processeur.

Pas de solution prévue

AMD ne prévoit pas de régler le problème. La correction par microprogramme ne vaut probablement pas la peine, ou présente plus d’inconvénients que d’avantages. En outre, le bogue n’affecte pas un grand nombre d’utilisateurs et la solution est simple. Si vous redémarrez les serveurs avant 1 000 jours, il ne faut pas s’inquiéter de ce problème. Une autre solution est de désactiver le mode veille de CC6.

Sûrement, certains utilisateurs vont jurer. Après tout, il existe plusieurs scénarios (de créneau) dans lesquels les serveurs critiques sont censés continuer à fonctionner pendant des années sans redémarrage. Cette option est surtout intéressante pour les serveurs Linux, où il est possible de les corriger en direct. Le bogue est spécifiquement lié aux puces Epyc Rome. La dernière génération d’AMD ne semble pas être affectée.

newsletter

Abonnez-vous gratuitement à ITdaily !

Category(Required)
This field is for validation purposes and should be left unchanged.