vendredi 16 mai 2008

Problèmes techniques 10 et 11 mai 2007

Tous les services internet dont les noms de domaine étaient gérés sur les DNS de Namebay ont été inaccessibles pendant quelques heures le week-end du 10 et 11 mai. La réponse obtenue de Namebay est recopiée ci-dessous:

Voici la description des faits techniques du week end du 10 au 12 mai 2008
ainsi que les mesures correctives ou préventives qui ont été apportées.

Namebay a effectué une migration de son architecture de DNS le samedi 3 mai
pour répondre à deux objectifs:

-mettre à jour les composants systèmes de ces DNS (systèmes d'exploitation et
logiciel DNS),

-permettre aux utilisateurs de saisir de nouveaux champs DNS en réponse aux
demandes qui nous ont été faites, en particulier pour un meilleur traitement
anti-spam (champ SPF).


Pour garantir homogénéité, pérennité et indépendance fonctionnelle, nos
serveurs sont sous Windows 2003 ou 2008, base de données SQL server 2005, avec
environnement virtuel VMware pour accueillir des environnements Linux.

Consécutivement à cette migration, une accumulation de circonstances, a priori
rares, a créé ce week end deux interruptions de service rapprochées:

-une en fin d'après midi et soirée du samedi 10 mai, avec rétablissement du
service vers minuit trente

-la deuxième très tôt dans la matinée de lundi avec rétablissement du service
vers 9h30.

Le DNS secondaire avait dû être rapatrié en début de semaine sur le même
plateau technique que le DNS primaire, pour une durée limitée au temps de
réinstallation de son nouveau serveur sur son plateau distinct (c'est dû à un
retard logistique).

Le samedi en fin d'après-midi, les services techniques de nos hébergeurs ont
constaté des pertes de paquets sur le réseau local de nos serveurs. Lors de
l'intervention, ils ont constaté que le DNS primaire était indisponible et que
le second avait du mal à résoudre les requêtes du fait des paquets perdus. Les
techniciens d'astreinte ont dû demander le concours d'autres techniciens pour
comprendre la cause de ces pertes de paquets et permettre le redémarrage du
service, car un gros firewall (de qualité), support de VPN, était passé dans
un état d'erreur.

Le lundi matin, les deux DNS qui interrogeaient la base de données centrale
sont devenus indisponibles. Les techniciens d'intervention ont alors constaté
que le plantage provenait du connecteur ODBC. Les trois serveurs ont été
relancés vers 9h30.

A l'analyse a posteriori, nous avons pris plusieurs mesures correctives et
préventives:

-il a été constaté qu'un patch correctif ODBC a été publié les jours
précédents par Microsoft. Ce patch a été installé et est en observation.

-les moniteurs de surveillance des DNS ont été renforcés avec des sondes
d'interrogation capables de redémarrer les DNS en cas de détection de non
résolution.

-nous avons demandé à nos hébergeurs de surveiller précisément le firewall qui
est passé en erreur, et d'intervenir directement depuis leur service 24/7,
pour raccourcir les délais sur ceux de Namebay.

-le DNS secondaire sera réinstallé prochainement sur son plateau technique
distinct

Pour conclure, dire que nous regrettons de n'avoir pu éviter ces concours de
circonstances serait une expression insuffisante. Nous pensons néanmoins avoir
adopté les mesures que nous pouvions prendre pour un retour à la normal.