na meerdere Azure-wijzigingen en beveiligingsverbeteringen in de afgelopen paar maanden introduceert Microsoft Project Tardigrade als hun nieuwste poging om Azure betrouwbaarder te maken.
Project Tardigrade voorkomt platformstoringen
Project Tardigrade is een nieuwe service die tot doel heeft de veerkracht van Azure te verbeteren. Het bevat mitigatiestrategieën die Azure-VM's beschermen tegen platformstoringen.
Hier is hoe Mark Russinovich,Chief Technology Officer bij Microsoft Azure, is beschrijven het huidige werk op Azure:
Ons doel is om organisaties in staat te stellen hun workloads betrouwbaar uit te voeren op Azure. Met dit als ons uitgangspunt, investeren we continu in de ontwikkeling van het Azure-platform tot foutbestendig, niet alleen om de bedrijfsproductiviteit te verhogen, maar ook om een naadloze klant te bieden ervaring.
Om impact op uw workloads te voorkomen, biedt de service stelt componenten in staat zichzelf te herstellen en snel te herstellen van mogelijke storingen, zelfs bij kritieke hostfouten.
Hoe werkt Project Tardigrade?
Hier is Een voorbeeld over hoe de Tardigrade-herstelworkflow werkt:
- Fase 1: deze stap heeft geen invloed op het uitvoeren van VM's van klanten. Het recyclet eenvoudig alle services die op de host draaien. In het zeldzame geval dat de defecte service niet opnieuw wordt opgestart, gaan we verder met fase 2.
- Fase 2: Onze diagnostische service draait op de host om alle relevante logs/dumps systematisch te verzamelen, om ervoor te zorgen dat we de reden voor het falen in fase 1 grondig kunnen diagnosticeren. Deze uitgebreide analyse stelt ons in staat om het probleem te 'wortelen' en zo herhaling in de toekomst te voorkomen.
- Fase 3: Op een hoog niveau resetten we het besturingssysteem naar een gezonde staat met minimale impact op de klant om het hostprobleem te verhelpen. Tijdens deze fase bewaren we de statussen van elke VM in RAM, waarna we beginnen met het resetten van het besturingssysteem naar een gezonde staat. Terwijl het besturingssysteem eronder snel wordt gereset, 'bevriezen' de actieve applicaties op alle VM's die op de server worden gehost, kort omdat de CPU tijdelijk wordt onderbroken. Deze ervaring is vergelijkbaar met een netwerkverbinding die tijdelijk is verbroken maar snel wordt hervat vanwege logica voor opnieuw proberen. Nadat het besturingssysteem is gereset, gebruiken VM's hun opgeslagen status en hervatten ze de normale activiteit, waardoor eventuele herstart van de VM wordt omzeild.
Met dit in gedachten zal Project Tardigrade ervoor zorgen dat: het falen van een enkel onderdeel in de host heeft geen invloed op het hele systeem. Als zodanig worden VM's van klanten niet beïnvloed door hostfouten.
Microsoft werkt hard aan het verbeteren en uitbreiden van de verschillende host-foutscenario's om ervoor te zorgen dat hun cloud computing-platform betrouwbaarder is dan ooit.
Verwacht in de nabije toekomst nieuwe ontwikkelingen en andere betrouwbaarheidsimplementaties.