L'échec de Facebook montre pourquoi nous ne devrions pas compter dessus pour tout

Table des matières:

L'échec de Facebook montre pourquoi nous ne devrions pas compter dessus pour tout
L'échec de Facebook montre pourquoi nous ne devrions pas compter dessus pour tout
Anonim

Clé à emporter

  • Les problèmes techniques de Facebook étaient regrettables, mais le problème aurait probablement été résolu beaucoup plus rapidement s'il ne reposait pas sur autant de systèmes interconnectés.
  • Il n'y a aucun moyen d'empêcher complètement les défaillances du système, mais il existe des moyens de les rendre moins probables.
  • Avoir des plans de sauvegarde pour quand (pas si, quand) un système tombe en panne peut faire la différence entre "ennuyeux" et "catastrophique".
Image
Image

La récente débâcle de Facebook montre à quel point les systèmes interconnectés sont voués à l'échec et pourquoi nous ne devrions pas les utiliser pour tout.

Perdre Facebook, WhatsApp et Instagram pendant plusieurs heures lundi était gênant, dommageable pour les entreprises et, dans certains cas, presque catastrophique. Selon Facebook, tout cela était dû aux changements de configuration de ses routeurs de coordination de réseau.

C'est une explication raisonnable, mais le fait qu'une seule erreur comme celle-ci puisse arrêter non seulement Facebook, mais aussi d'autres systèmes appartenant à Facebook est un peu alarmant.

Une mauvaise modification de la configuration du routeur a entraîné l'arrêt complet de plusieurs services, et même des casques VR. En plus de cela, de l'aveu même de Facebook, cela a également eu un effet en cascade sur la façon dont les centres de données de l'entreprise communiquent, interrompant tous leurs services.

"Le recours à des systèmes interconnectés comporte un risque inhérent de défaillance du système ou même du service", a déclaré Francesco Altomare, ingénieur technico-commercial senior chez GlobalDots, dans un entretien par e-mail avec Lifewire, "Pour contrer ce risque décourageant, les entreprises utilisent le principe de SRE (System Reliability Engineering), ainsi que d'autres outils, qui traitent tous de différents niveaux de redondance intégrés à chaque couche de l'infrastructure d'un système."

Image
Image

Ce qui peut mal tourner

Il convient de noter que lorsqu'un système comme celui-ci échoue, il nécessite généralement une tempête parfaite de problèmes. C'est moins comme un château de cartes attendant de tomber et plus comme un orifice d'échappement thermique exposé sur une station spatiale de la taille d'une petite lune.

La plupart des entreprises prennent des mesures pour essayer de s'assurer que la seule chose qui pourrait tout jeter dans le chaos ne se produit jamais, mais quoi qu'il en soit, cela peut arriver.

"Les pannes inattendues font partie de l'activité et peuvent résulter de la négligence des travailleurs, de défaillances du réseau du fournisseur de services Internet ou même de problèmes de stockage dans le cloud", a déclaré Sally Stevens, cofondatrice de FastPeopleSearch, dans un entretien par e-mail.

"… Tant que les mesures nécessaires pour protéger le système, telles que les sauvegardes, le routeur sur site et l'accès à plusieurs niveaux, sont mises en place, ces défaillances sont assez peu probables." Bien que même avec une armée de sécurités, il est toujours possible que la clé de voûte tombe en panne.

Si le système qui contrôle des éléments tels que les principales formes de contact, les appareils électroménagers, les portes, etc. tombe en panne, les résultats peuvent être importants. D'un léger désagrément à un véritable catastrophique, en fonction de la quantité d'individus et d'entreprises qui en dépendent.

Image
Image

"Il existe également un risque que des pirates informatiques pénètrent dans le système à partir de l'un des appareils les moins protégés, tels que les réfrigérateurs et les grille-pain", a ajouté Stevens, "ce qui pourrait entraîner le vol de données et des rançongiciels."

Comment nous pouvons nous préparer

Il n'y a aucun moyen de garantir qu'un système ne tombera jamais en panne, mais il existe des mesures qui peuvent être prises pour rendre la panne moins probable ou pour y remédier plus facilement. Une combinaison des deux approches qui associe des sécurités et des contre-mesures avec des plans d'urgence et des systèmes de sauvegarde serait idéale.

"Pour éliminer ces dangers créés par des produits et services tiers qui sont gérés efficacement, les rôles et les devoirs concernant la gestion des risques tiers doivent être strictement définis", a déclaré Daniela Sawyer, fondatrice et directrice de la technologie de FindPeopleFast, dans une interview par e-mail, "Pour s'épanouir dans ce nouvel environnement, les gestionnaires de risques doivent saisir les éléments essentiels d'un écosystème aussi sophistiqué."

Ce qui s'est passé avec Facebook, WhatsApp et Instagram était malheureux, mais aussi, espérons-le, révélateur. Les personnes qui s'appuient sur des systèmes interconnectés doivent comprendre que la bonne chose qui ne va pas peut tout perturber. Et des mesures doivent être mises en place (ou examinées et affinées) pour rendre ces perturbations moins probables et moins percutantes.

Dans le cas de Facebook, son problème n'était pas les problèmes de routeur, mais plutôt la quasi-totalité de son écosystème connecté à tout le reste. Ainsi, avec Facebook (le service) en panne, Facebook (l'entreprise) a dû consacrer beaucoup plus de temps et d'énergie à simplement organiser et résoudre le problème. S'il n'utilisait pas un système aussi profondément enraciné et interconnecté ou s'il avait mis en place des plans de secours pour faire face à une telle panne, il aurait probablement fallu beaucoup moins de temps pour le réparer.

Conseillé: