Cette nuit notre site était inaccessible Explication .

Nous allons planifier dans les semaines à venir une intervention complémentaire pour re-construire dans la baie le stock de matériel de backup.

Dans la nuit, pour une raison encore inconnue, APC-21 a cessé d'alimenter switch-nas11. Lorsque le technicien d'OVH est venu pour déplacer l'alimentation de switch-nas11 de APC-21 vers APC-24, le switch n'a pas booté. Il s'agit d'un switch Cisco. Ce matériel est réputé pour sa fiabilité. Nous n'avons pas encore d'explication quant à son dysfonctionnement.

Nous avons indiqué au technicien d'utiliser un switch de secours qui étaient en attente dans la baie. L'installation de ce switch a rallongé l'intervention car il a fallu re-cabler toutes les machines dans un premier temps. Lorsque le switch de backup a été allumé, nous avons constaté un problème sur deux cartes réseaux du serveur principal (master sql). Dans un second temps, il a donc fallu ré-écrire toutes les règles de routage. Il est fort probable que le problème sur APC-21 ait entrainé les pannes en cascade sur switch-nas11 et les 2 cartes réseaux.

Depuis 9:30AM, tous les services sont up. Si nous n'avions pas remplacé APC-21 hier matin, la panne qu'il a subi cette nuit aurait pu avoir des conséquences encore plus graves. Une grande partie de la baie aurait cessé d'être alimentée de façon brutale. Cela aurait pu être terrible (pertes de données, machines hors d'usage, ...) et provoquer un downtime encore plus long (replacement de machines, re-configuration, reprise de backups, ...)

Nous allons planifier dans les semaines à venir une intervention complémentaire pour re-construire dans la baie le stock de matériel de backup. Nous allons également en profiter pour anticiper le remplacement des matériels de la même génération que ceux qui ont été défectueux cette nuit.