Que s’est-il passé pour qu’un géant de l’Internet mondial disparaisse du Web pendant plusieurs heures ? Retour sur les causes techniques et les premières conséquences de ce fiasco.

Hier, lundi 4 octobre 2021, les sites et services du groupe Facebook sont tombés vers 17h30 (heure française) pour ne commencer à revenir en ligne que bien plus tard dans la soirée. Une panne géante qui a empêché les quelque 3,5 milliards de membres de ces plateformes d’accéder aux réseaux sociaux et aux messageries Facebook, Messenger, Instagram et WhatsApp

Compte-tenu de la mainmise de ce géant sur les communications en ligne, l’événement n’a rien d’anodin. Surtout qu’au-delà des perturbations dans les communications privées, il faut rappeler que de très nombreuses entreprises dépendent des sites et services de Facebook : elles vendent, communiquent, organisent leurs rendez-vous et assurent leur service après-vente avec ces outils. Le poids qu’a Facebook sur l’économie aujourd’hui rend ce type de dysfonctionnements bien plus dommageables, et la société se doit de rendre des comptes.

Des explications qui méritaient approfondissement

Dès lors, tout le monde a cherché à comprendre les raisons de ce plantage, et ce n’est pas chez Facebook que l’on a obtenu les réponses les plus détaillées. En effet, la société de Mark Zuckerberg s’est plus ou moins contentée d’indiquer que la panne était la conséquence d’une erreur faite lors d’une opération de maintenance de ses serveurs. Un “changement de configuration erroné” ayant entraîné un “problème réseau”, expliquant “une désynchronisation du trafic entre les data-centers qui a interrompu les communications”. Un effet boule de neige a, très vite, fini par mettre tous les services de Facebook K.-O

L’une des analyses les plus complètes du phénomène a été fournie par Cloudflare, dont le patron, Matthew Prince, a très vite indiqué sur son compte Twitter que la panne n’était certainement pas due à une cyberattaque, mais plutôt à une erreur de maintenance des serveurs au niveau du routage et du protocole BGP (pour Border Gateway Protocol). “C’est comme si quelqu’un avait arraché les câbles des centres de données de Facebook d’un seul coup, et avait déconnecté les sites d’Internet”, résume un billet publié sur le blog de Cloudflare, qui revient sur cet épisode durant lequel les DNS et l’infrastructure IP de Facebook sont devenus inaccessibles. Tant et si bien que le domaine Facebook.com a même été brièvement listé comme “à vendre” sur le registrar DomainTools.

Analysant en permanence les informations envoyées sur le protocole BGP dont dépend l’Internet mondial (le BGP permettant à un réseau, par exemple Facebook, de signaler sa présence aux autres réseaux d’Internet), Cloudflare a enregistré la disparition des serveurs DNS (Domain Name System) de Facebook, empêchant la réponse aux requêtes demandant les adresses facebook.com ou instagram.com, puis a constaté un pic dans les changements de routage de Facebook avec de nombreuses mises à jour du BGP. Il s’agit d’un comportement inhabituel pour Facebook qui apporte généralement peu de changements à son réseau en temps réel. Cloudflare explique qu’une fois les DNS de Facebook déconnectés, certains de ses ingénieurs ont pensé qu’il s’agissait d’un problème de leurs systèmes, tentant de comprendre d’où pouvait venir la coupure avant de se rendre à l’évidence : Facebook et ses sites étaient en réalité déconnectés d’Internet.

Sans conséquence, ou presque, sur le reste du trafic Internet

Forcément, lorsque Facebook, Instagram ou WhatsApp ne répondent pas, que font les utilisateurs et leurs applications ou navigateurs Internet ? Ils essaient tant bien que mal de s’y connecter en relançant des requêtes sur les serveurs DNS publics tels que 1.1.1.1 ou 8.8.8.8, recevant à chaque fois la même réponse “Servfail”, le serveur n’étant pas connecté pour répondre. Cloudflare explique ainsi l’explosion des requêtes DNS au moment de la panne. Cela a obligé les résolveurs DNS à traiter jusqu’à 30 fois plus de requêtes qu’habituellement. Heureusement, ces infrastructures sont extrêmement performantes et résilientes, ce qui fait que malgré cette charge supplémentaire, elles ne sont pas tombées. Une panne mondiale de Facebook n’est donc pas suffisante pour faire tomber d’autres sites et services sur Internet, fort heureusement. Un très petit pourcentage de requêtes a simplement pu voir son temps de traitement allongé, mais de manière quasi-imperceptible pour l’utilisateur.

Dans son analyse, Cloudflare montre enfin de quelle manière les gens ont fini par prendre leur mal en patience en sollicitant moins les DNS des sites Facebook, mais en cherchant à se renseigner ailleurs — ce qui a eu un effet direct sur le trafic de Twitter ou Signal, par exemple. L’entreprise a ensuite pu voir de nouveau les signalements BGP s’affoler chez Facebook, au moment où la bonne configuration de routage a été rétablie, entraînant peu à peu le retour en ligne des services. Les utilisateurs des services Facebook ont alors à nouveau pu respirer, tout comme l’ensemble des entreprises qui s’appuient sur Facebook et ses filiales pour leurs activités.

Salariés au chômage technique et grosses pertes financières

Certaines conséquences, moins visibles, ont également été documentées. Ces dysfonctionnements ont par exemple paralysé les systèmes internes de communication de l’entreprise. Les employés ont ainsi vu leurs boîtes e-mail gelées et la plupart d’entre eux ne pouvaient plus travailler pendant les quelques heures qu’a duré la panne. Des accès à certains bureaux de Facebook, contrôlés en ligne, auraient également été perturbés. Des blocages qui ont pu complexifier le travail de la task-force de techniciens à l’œuvre sur la résolution des problèmes à l’origine de la panne.

Ce matin, en revanche, ce sont les conséquences de cette panne sur la santé financière de Facebook et de son patron, Mark Zuckerberg, qui font l’objet de nombreux articles de presse. Il faut dire que l’action Facebook a terminé sa journée à Wall Street en perdant 4,89 % de sa valeur, à 326,23 dollars. Cela porte la chute du titre à -15 % depuis début septembre, période à laquelle l’action Facebook était au plus haut. Pour Mark Zuckerberg, cela représente une perte — virtuelle — de 6 milliards de dollars sur la journée, sa fortune personnelle étant retombée aux alentours de 122 milliards de dollars. En une quinzaine de jours, le patron de Facebook a ainsi “perdu” près de 15 milliards.

Il faut dire que cette panne est tombée au pire moment, juste après les révélations du Wall Street Journal et la prise de parole de Frances Haugen, lanceuse d’alerte ayant dérobé des documents internes à son ex-employeur qu’elle accuse de faire passer les profits avant tout.

Par Mathieu Chartier, lesnumeriques