Après plusieurs Changements Azure et améliorations de la sécurité au cours des deux derniers mois, Microsoft a présenté le projet Tardigrade comme sa nouvelle tentative pour rendre Azure plus fiable.
Le projet Tardigrade prévient les défaillances de la plate-forme
Project Tardigrade est un nouveau service qui vise à améliorer la résilience Azure. Il inclut des stratégies d'atténuation qui protègent les machines virtuelles Azure contre les défaillances de la plate-forme.
Voici comment Mark Russinovich,Chief Technology Officer chez Microsoft Azure, est décrivant les travaux en cours sur Azure :
Notre objectif est de permettre aux organisations d'exécuter leurs charges de travail de manière fiable sur Azure. Avec cela comme principe directeur, nous investissons continuellement dans l'évolution de la plate-forme Azure pour devenir résilient aux pannes, non seulement pour augmenter la productivité de l'entreprise, mais également pour fournir un client transparent vivre.
Pour éviter tout impact sur vos charges de travail, le service
permet aux composants de s'auto-réparer et de récupérer rapidement des pannes potentielles, même en cas de panne critique de l'hôte.Comment fonctionne le projet Tardigrade ?
Voici un exemple sur le fonctionnement du workflow de récupération Tardigrade :
- Phase 1: cette étape n'a aucun impact sur l'exécution des VM clientes. Il recycle simplement tous les services exécutés sur l'hôte. Dans les rares cas où le service défaillant ne redémarre pas avec succès, nous passons à la phase 2.
- Phase 2: Notre service de diagnostic s'exécute sur l'hôte pour collecter systématiquement tous les journaux/vidages pertinents, afin de garantir que nous pouvons diagnostiquer en profondeur la raison de l'échec de la phase 1. Cette analyse complète nous permet de « rechercher la cause » du problème et d'éviter ainsi que cela se reproduise à l'avenir.
- Phase 3: À un niveau élevé, nous réinitialisons le système d'exploitation dans un état sain avec un impact minimal sur le client pour atténuer le problème de l'hôte. Au cours de cette phase, nous préservons les états de chaque VM dans la RAM, après quoi nous commençons à réinitialiser le système d'exploitation dans un état sain. Alors que le système d'exploitation se réinitialise rapidement en dessous, l'exécution d'applications sur toutes les machines virtuelles hébergées sur le serveur se « fige » brièvement car le processeur est temporairement suspendu. Cette expérience est similaire à une connexion réseau temporairement perdue mais rapidement reprise en raison d'une logique de nouvelle tentative. Une fois le système d'exploitation réinitialisé avec succès, les machines virtuelles consomment leur état stocké et reprennent une activité normale, évitant ainsi tout redémarrage potentiel de la machine virtuelle.
Dans cet esprit, le Projet Tardigrade s'assurera que la défaillance d'un seul composant de l'hôte n'a pas d'impact sur l'ensemble du système. En tant que telles, les machines virtuelles des clients ne seront pas affectées par les pannes de l'hôte.
Microsoft travaille dur pour améliorer et étendre le différents scénarios de panne d'hôte pour s'assurer que leur plate-forme de cloud computing est plus fiable que jamais.
Attendez-vous à de nouveaux développements et autres implémentations de fiabilité dans un proche avenir.