Kernel panics et downtime de 24 heures

Ecrit le 03/02/2018

Note: Cet article a pour but d’être un minimum transparent sur ce qui se passe sur le serveur (le 115 dès lors) ainsi que de vous informer si vous aimez lire. Il sert aussi pour moi afin de garder une trace de comment j’ai réagi avec les actions entreprises. Cet article risque d’être technique sur certains termes bien que je me mets à la place du lecteur et que je simplifie au maximum.

Le mercredi 31 janvier 2018 au soir

J’allais tranquillement opérer sur les certificats TLS et remplacer le 4096 RSA par un ECC 384 bits. J’ai donc ouvert un ticket de status annoncant cela sur la page de status.

Suivant un tutoriel pour générer le fameux sésame, l’entrée clavier de la console SSH a subitement cessé de fonctionner pour une raison apparament obscure. J’ai donc débranché et rebranché une fois avant de constater que après quelques minutes, le 115 cessait de répondre sur le réseau.

Après plusieurs essais infructueux, je découvert par surprise qu’il s’agissait depuis le début de kernel panics (panique du noyeau).J’ai donc éteint le 115 ainsi que le NAS (le 125) et le switch avant d’aller me coucher pour une autre journée de cours.s

Le jeudi 1er février

J’ai eu le temps de copier 14 GB env. de la carte SD de 32 GB. La routine oblige, j’ai dû interrompre la copie de l’image.

Le soir, après une journée de cours, j’ai copié la totalité de la carte SD avant de commencer à réinstaller car je voulais garder une copie au cas. J’ai donc commencé à réinstaller depuis la dernière backup et la copie de la carte SD avec quelques reboots: /etc, /srv, /home. Une fois la réinstallation terminée, j’ai pu finir quelques détails indispensables.

Maintenant

Maintenant tout refonctionne au poil. Il ne reste que quelques programmes / scripts qui peuvent attendre cas ils ne sont pas destinés à être rendus publics. Encore une fois, je m’excuse pour les désagréments engendrés mais je ne pouvais me permettre de laisser un serveur courir et terminer en kernel panic avec peu d’uptime (~ 5 - 10 minutes).