L’énorme panne du cloud d’Amazon provenait… d’une faute de frappe

Mardi dernier, 28 février, une partie du web américain était dans les choux pendant plusieurs heures, en raison d’une panne dans un datacenter d’Amazon Web Services (AWS), une filiale du

géant de la vente en ligne. Cette panne a principalement impacté le service de stockage S3, entraînant l’inaccessibilité de dizaines de services en ligne qui s’appuyaient justement sur cette offre. Parmi les victimes, on trouve Snapchat, Expedia, BuzzFeed, Slack, Medium et Trello.

Dans une note de blog, AWS vient maintenant de présenter officiellement ses excuses pour ce dysfonctionnement, tout en livrant une explication détaillée des faits. Il s’avère ainsi, à la lecture de ce texte, que l’origine de cette panne est la résultante d’une simple… faute de frappe ! Eh oui, ce jour-là, dans le datacenter US-EAST-1 (situé en Virginie du nord), un technicien était chargé, pour des raisons de maintenance, de déconnecter un “petit nombre de serveurs” d’un sous-système de S3 dédié à la facturation des clients. Il devait, pour cela, exécuter une commande informatique. “Malheureusement, l’une des entrées de cette commande a été mal saisie et un grand nombre serveurs – bien plus que prévu à l’origine – a été déconnecté”, explique l’entreprise.

Un enchaînement diabolique

Manque de chance, parmi ces serveurs supplémentaires figuraient certains, stratégiques, liés aux sous-systèmes dédiés à l’allocation des ressources et à l’index général, qui permettent respectivement d’insérer et de localiser les données de S3. Le nombre de serveurs impactés a tellement augmenté que ces deux sous-systèmes n’ont très vite eu plus assez de capacité pour continuer à fonctionner. Il a donc fallu procéder à leur redémarrage complet. Et pendant ce temps, le service S3 n’était du coup plus opérationnel, en tous les cas dans cette partie du globe. D’autres service d’AWS ont été impacté par contrecoup, tel que EC2 (serveurs virtuels), EBS (un autre service de stockage) ou Lambda (plateforme d’exécution). Même la console d’administration de S3, qui permet de visualiser la disponibilité du service, ne fonctionnait plus. Amazon a donc été obligé d’alerter ses clients par Twitter.

Bref, cette panne est l’archétype du scénario catastrophe que redoute chaque administrateur système. Une petite erreur provoque une cascade d’événements de plus en plus grave, jusqu’à l’arrêt total. La bonne nouvelle, c’est que ce type de panne ne devrait plus se produire. Désormais, la commande de déconnexion a été bardée de garde-fous qui, à l’avenir, l’empêcheront de déconnecter un trop grand nombre de serveurs d’un coup. Ce qui ne nous tue pas, nous rend plus fort.