jeudi 9th novembre 2017

Problème grave sur le https://git.esi-bru.be

Tout le monde est sur le pont pour régler ça… et ce message est automatique.

Édition 1

Problème électrique et réseau chez OVH notre hébergeur.

Édition 2

Voici un tweet de Octave Kluba d'OVH

Bonjour, Avant tous les détails, deux premières informations.

Ce matin, nous avons eu 2 incidents séparés qui n'ont rien à voir l'un avec l'autre. Le 1er incident touche notre site de Strasbourg (SBG) et le 2eme Roubaix (RBX). Sur SBG nous avons 3 datacentres en fonctionnement et 1 en construction. Sur RBX, nous avons 7 datacentres en fonctionnement.

SBG: Sur SBG nous avons eu un problème électrique. L'alimentation a été rétablie et les services sont en cours de redémarrage. Certains clients sont UP et d'autres pas encore. Si votre service n'est pas encore UP, le délai de rétablissement est compris entre 5 minutes et 3-4 heures. Notre système de monitoring nous permet de savoir quel client est encore impacté et nous nous travaillons pour les fixer.

RBX: Nous avons eu un problème sur le réseau optique qui permet à RBX d'être connecté avec les points d'interconnexion que nous avons à Paris, Francfort, Amsterdam, London, Bruxelles. L'origine du problème est un bug software sur les équipements optiques qui a provoqué la perte de la configuration et la coupure de la connexion avec notre site de RBX. Nous avons remis le backup de la configuration software dés que nous avons diagnostiqué l’origine du problème et le DC est à nouveau joignable. L'incident sur RBX est clos. Avec le constructeur, nous cherchons l'origine du bug software et aussi comment ne plus subir ce genre d’incident critique.

Nous sommes en train de récupérer les détails pour vous fournir les informations sur le temps de rétablissement à SBG de tous les services / tous les clients. Aussi, nous allons donner tous les détails techniques sur l'origine de ces 2 incidents.

Nous sommes sincèrement désolés. Nous venons de vivre 2 évènements simultanés et indépendants qui ont impactés tous les clients de RBX entre 8h15 et 10h37 et tous les clients de SBG entre 7h15 et 11h15. Nous continuons à travailler sur les clients qui ne sont pas encore UP à SBG.

Amicalement Octave

Édition 3

Le défaut sur le serveur a été constaté à 17h50.

Info OVH de 17h23

Il reste 50 hosts indisponibles suite à des problèmes hardware. Nous travaillons en collaboration avec les équipes au DC pour tout remettre en route.
Il reste ~23000 ips qui sont toujours down, mais nous travaillons à les fixer au plus vite.

Édition 4

L'info d'OVH de 22h22

Il reste :

  • 1025 serveurs dédiés
  • 150 instances PCI
  • 2700 VPS
  • 250 hosts PCC

Les serveurs restants sont concernés par les dysfonctionnements des switchs liés aux tâches ci-après :
http://travaux.ovh.net/?do=details&id=28269
http://travaux.ovh.net/?do=details&id=28268
http://travaux.ovh.net/?do=details&id=28267

… et donc, le serveur gitlab est dans les 2700 derniers VPS. Sera-t-il le dernier ?

Dormez bien.

Édition 5

À 3h24 cette nuit, ovh annonçait qu'il reste 2400 vps en rade dont le nôtre.

Édition 6

Nous constatons à l'instant que le service est à nouveau disponible.

Ceci clôture #OVHdown…