Chaos Monkey

8'36"

Si vous n'avez pas vécu un grand blackout comme celui-ci, vous ne comprendrez pas la nécessités de disposer de solutions de contournements à vos question de Cloud (stockage ET processus/services). Voyez plutôt :

En gros, des compagnies aériennes, des services médicaux, des banques, des services d'urgence, des guichets automatiques, des chaînes de télévision, des centres commerciaux, … ont été complètement bloqués à cause d'une mise à jour désastreuse[1]

L'ampleur de la panne et ses conséquences en chaîne vous en dit long, très long, sur la véritable maturité des systèmes informatiques d'aujourd'hui (19/07/2024 17:37:39). Et, toutes ces victimes viennent faire la leçon ! ET ce sont les mêmes «idiots» qui vous obligent à effectuer les mises à jour automatiques. C'est affligeant !

CrowdStrike a frappé la foule

Microsoft à terre

Introduction au Chaos Monkey chez Netflix

Le Chaos Monkey est un outil développé par Netflix en 2011 dans le cadre de leur stratégie de **chaos engineering**, qui consiste à tester la résilience des systèmes informatiques en provoquant des défaillances contrôlées. Cet outil fait partie d'une suite plus large appelée **Simian Army**, conçue pour simuler divers types de pannes et évaluer la capacité des systèmes à y faire face sans impact significatif sur les utilisateurs.

Contexte et Objectifs

Migration vers le Cloud

En 2010, Netflix a migré ses services vers le cloud, utilisant principalement **Amazon Web Services (AWS)**. Cette transition a introduit des défis, car les serveurs pouvaient être arrêtés ou remplacés à tout moment. Pour s'assurer que leurs systèmes pouvaient gérer ces interruptions, Netflix a créé Chaos Monkey, qui interrompt aléatoirement des instances de serveurs en production. Cela permet aux équipes d'ingénierie d'identifier les faiblesses dans l'architecture et de tester les mécanismes de récupération automatique.

Philosophie de l'Ingénierie du Chaos

La philosophie derrière le Chaos Monkey repose sur l'idée que les systèmes doivent être conçus pour être résilients face à des défaillances inattendues. En exposant régulièrement les systèmes à des interruptions, les ingénieurs peuvent construire des solutions qui non seulement réagissent aux pannes, mais qui les anticipent également. Cela favorise une culture d'ingénierie proactive, où les équipes apprennent à améliorer continuellement la robustesse de leurs services.

Fonctionnement du Chaos Monkey

Mécanisme de Fonctionnement

Chaos Monkey fonctionne en désactivant aléatoirement des instances de serveurs dans l'environnement de production. Ce processus permet de tester comment les systèmes réagissent à la perte d'un ou plusieurs composants critiques. Les ingénieurs doivent donc s'assurer que les services restent disponibles et que les utilisateurs ne subissent pas d'interruption.

Intégration avec Spinnaker

Pour utiliser Chaos Monkey, les applications doivent être gérées avec **Spinnaker**, une plateforme de livraison continue développée par Netflix. Cela permet une intégration fluide et une gestion efficace des déploiements tout en testant la résilience des services.

Avantages et Résultats

Amélioration de la Résilience

L'utilisation de Chaos Monkey a permis à Netflix de renforcer la résilience de ses systèmes. En simulant des pannes, les équipes ont pu identifier des vulnérabilités et mettre en place des solutions pour les corriger avant qu'elles n'affectent les utilisateurs. Cela a également permis de valider les mécanismes de récupération automatique, garantissant ainsi une continuité de service.

Culture d'Ingénierie Collaborative

Chaos Monkey a favorisé une culture d'ingénierie collaborative chez Netflix. Les équipes de développement, d'exploitation et d'assurance qualité travaillent ensemble pour comprendre les impacts des interruptions et pour améliorer continuellement la robustesse des systèmes. Cette approche collaborative est essentielle pour garantir que tous les membres de l'équipe sont impliqués dans le processus d'amélioration continue.

La panne informatique mondiale causée par Crowdstrike a mis en lumière les dangers de la dépendance excessive à un seul fournisseur de solutions de cybersécurité et a illustré l'importance de la résilience et des plans de secours. Voici un article détaillé sur les dangers d'une panne informatique mondiale et comment les solutions alternatives peuvent aider à prévenir ou à gérer ces types de crises.

Les dangers d'une panne informatique mondiale

Impact sur les systèmes et les entreprises

La panne informatique mondiale causée par Crowdstrike a paralysé des aéroports, des gares, et de nombreuses entreprises dans le monde entier. Les systèmes informatiques ont été mis hors service, causant des retards de cotation à la Bourse de Londres et des perturbations dans les opérations des compagnies aériennes. Cette panne a montré que même les systèmes les plus critiques peuvent être vulnérables à des erreurs de mise à jour ou à des bugs majeurs dans les logiciels de cybersécurité.

Fragilité des écosystèmes de cybersécurité

Les écosystèmes de cybersécurité, qui dépendent souvent d'un seul fournisseur de solutions, sont particulièrement vulnérables. Crowdstrike, par exemple, utilise un agent de détection des menaces (EDR) qui est intégré dans les systèmes Windows et est utilisé par de nombreuses entreprises. Lorsque ce logiciel a été mis à jour avec une erreur, cela a entraîné une cascade de plantages d'ordinateurs, affectant des millions de systèmes informatiques.

Conséquences économiques et sociales

La panne a eu des répercussions économiques et sociales significatives. Les entreprises ont dû suspendre leurs activités, ce qui a entraîné des pertes financières et des retards dans les livraisons. Les services de secours et d'urgence ont également été affectés, ce qui a mis en danger la sécurité publique. Cette dépendance excessive à un seul fournisseur de solutions de cybersécurité montre l'importance de diversifier les solutions et de mettre en place des plans de secours.

Le Chaos Monkey de Netflix et les leçons à tirer

Principe du Chaos Monkey

Le Chaos Monkey est une technique de test de résilience développée par Netflix. Il s'agit d'un outil qui simule des pannes informatiques aléatoires dans les systèmes de Netflix pour tester leur capacité à se rétablir. Cette approche vise à identifier les points faibles et à améliorer la résilience des systèmes en cas de panne

Applications aux systèmes de Crowdstrike

Si Netflix utilise le Chaos Monkey pour tester la résilience de ses systèmes, Crowdstrike aurait pu bénéficier de cette approche pour tester les mises à jour avant de les déployer. Cela aurait permis de détecter les erreurs avant qu'elles ne se propagent à l'échelle mondiale. Le Chaos Monkey est une méthode proactive qui permet de simuler des pannes pour améliorer la résilience des systèmes, ce qui est essentiel dans un monde où les cyberattaques et les erreurs de mise à jour peuvent avoir des conséquences catastrophiques.

## Solutions alternatives pour la résilience ### Cloud et services web Les solutions cloud et les services web offrent des alternatives à la dépendance à un seul fournisseur. Par exemple, les services de cloud computing comme AWS, Microsoft Azure, et Google Cloud peuvent offrir des solutions de secours en cas de panne. Ces services permettent aux entreprises de diversifier leurs solutions et de réduire leur dépendance à un seul fournisseur[2][5]. ### Processus et routes de secours Les entreprises doivent mettre en place des processus et des routes de secours pour gérer les pannes informatiques. Cela inclut des plans de secours pour les mises à jour, des tests de résilience réguliers, et des équipes de réaction rapide pour gérer les pannes. Les entreprises doivent également être prêtes à réagir rapidement en cas de panne, ce qui inclut des plans pour la récupération des données et la restauration des systèmes[2][5]. ### Diversification des solutions de cybersécurité La diversification des solutions de cybersécurité est cruciale pour réduire la vulnérabilité aux pannes informatiques. Les entreprises doivent utiliser plusieurs fournisseurs de solutions de cybersécurité et mettre en place des plans de secours pour les cas où un fournisseur est affecté par une panne. Cela permet de réduire la dépendance à un seul fournisseur et de renforcer la résilience des systèmes[2][5]. ## Conclusion La panne informatique mondiale causée par Crowdstrike a montré l'importance de la résilience et des plans de secours. Les entreprises doivent diversifier leurs solutions de cybersécurité et mettre en place des processus de test de résilience pour éviter les conséquences catastrophiques d'une panne informatique. Le Chaos Monkey de Netflix est une méthode proactive qui peut être appliquée pour tester la résilience des systèmes et améliorer leur capacité à se rétablir en cas de panne. Les solutions cloud et les services web offrent également des alternatives pour réduire la dépendance à un seul fournisseur et renforcer la résilience des systèmes informatiques. Citations:

Conclusion

Le Chaos Monkey est un exemple emblématique de la manière dont une entreprise peut utiliser le chaos engineering pour améliorer la résilience de ses systèmes. En introduisant des défaillances contrôlées, Netflix a non seulement renforcé ses infrastructures, mais a également cultivé une culture d'innovation et de collaboration au sein de ses équipes techniques. Cette méthode proactive permet à Netflix de maintenir un service de haute qualité pour ses millions d'utilisateurs, même face à des défis imprévus.

Notes de bas de page

[1] … Cele ne me rabiboche pas avec les updates/upgrades automatiques !

Telegram icon