Incendie OVH : notre PRA en 24H chrono

Dans la nuit du mardi 9 au mercredi 10 mars 2021, un incendie se déclare dans le datacenter d'OVH à Strasbourg où une grande partie de nos données et de celles de nos clients sont stockées. Nous déclenchons notre PRA et rétablissons l'intégralité de nos services en 24 heures chrono (enfin presque... on a fait sans Jack...).

Mercredi 7h30

Alors que le feu est circonscrit et qu'aucune victime n'est à déplorer, nous sommes alertés par OVH : un des quatre bâtiments du datacenter et le tiers d'un autre ont été totalement détruits et l'électricité a été coupée sur l'ensemble du site. Nous concernant, un tiers de nos serveurs est hors ligne.

8h30

Nous avons vérifié nos sauvegardes, elles sont saines, jusqu'à celle du mardi interrompue par l'incendie.
Nous enclenchons notre Plan de Reprise d'Activité consistant à remonter l'infrastructure sur de nouveaux serveurs.

9h30

Nous informons tous nos clients de l'incident majeur subi par OVH et nous les rassurons sur l'intégrité des sauvegardes et l'activation de notre PRA.

10h30

La situation est plus grave que ce que nous imaginions. Les interfaces de gestion des serveurs sont saturées. Les serveurs commandés avec une disponibilité sous 120 secondes peinent à arriver...

14h30

Nos scripts automatiques de maintenance ont déjà ré-installé les premiers services sur les premiers nouveaux serveurs reçus.

19h30

Tous les serveurs commandés ont été reçus et tous les services ont été ré-installés. La restauration des données est en cours : 1,8 To de données !

22h30

La restauration des données continue. Elle se déroule bien. Nous envoyons un point de situation à tous nos utilisateurs impactés.

Jeudi 00h30

La restauration est toujours en cours.

7h30

La restauration est terminée et les applications sont opérationnelles ! Nous vérifions que tous les paramètres spécifiques sont bien appliqués. Nous déclenchons de nouvelles sauvegardes sur les nouveaux serveurs pour l'ensemble des sites pour lesquels nous travaillons.

10h30

Nous avons contrôlé et testé les instances remontées : tout est OK ! Nous ré-ouvrons aux utilisateurs les services openADS, openARIA, openCourrier, openCimetière. Seul openElec pose problème du fait de l'indisponibilité du Répertoire Électoral Unique.

13h30

Nous informons tous nos utilisateurs impactés du rétablissement des services.

14h30

Nous enrichissons notre PRA en ajoutant une sauvegarde supplémentaire vers un autre hébergeur.

15h30

Les instances openElec sont resynchronisées avec le REU, de nouveau disponible. Nous ré-ouvrons le service openElec et informons les utilisateurs concernés.

16h30

Les collectivités qui hébergeaient en direct leurs applications et qui ont été impactées sont réinstallées dans notre SAAS en attendant le rétablissement de leurs infrastructures.

Les premiers retours utilisateurs arrivent...

"Félicitations pour votre réactivité à solutionner les problèmes." SOGEFI

"Félicitations ! C'est rare que le prestataire soit aussi communiquant - rapide - et que ca se passe aussi bien." (Mezenc Loire Meygal)

"Merci et bravo, nous sommes rassurés pour nos données." (Saintes-Maries-de-la-Mer)

"Merci à vous. Vous êtes au top. Bravo pour votre réactivité et votre efficacité." (Trets)

"Bravo à vous, c'est une belle réactivité. Nombre d'entreprises sont actuellement toujours très impactées et n'ont pas trouvé de solution aussi rapide. Bien joué." (Anneyron)

"Merci beaucoup pour votre réactivité et ces informations !" (Revel)

"Vous avez assuré "grave" ! Merci à toute l'équipe... vous pourrez peut-être mieux dormir ce soir !" (Mezenc Loire Meygal)

Un PRA, c'est comme une assurance, on espère toujours ne pas avoir à s'en servir...
Heureusement, l'ensemble des procédures et les équipes étaient préparées. Notre PRA nous a permis de reconstruire les serveurs et de redémarrer les services en quelques heures.

Un grand merci aux collectivités territoriales utilisatrices de nos solutions et services pour leur compréhension et leurs encouragements !

Pour finir, nous souhaitons également témoigner notre profond soutien aux équipes d'OVH en leur dédiant la fameuse maxime de Nietzsche :

Was mich nicht umbringt, macht mich stärker. (Ce qui ne me fait pas mourir me rend plus fort)