Efter flere Azure ændringer og sikkerhedsforbedringer i de sidste par måneder introducerer Microsoft Project Tardigrade som deres nyeste forsøg på at gøre Azure mere pålidelig.
Project Tardigrade forhindrer platformfejl
Project Tardigrade er en ny tjeneste, der har til formål at forbedre Azure-modstandsdygtighed. Det inkluderer afbødningsstrategier, der beskytter Azure VM'er mod platformfejl.
Her er hvordan Mark Russinovich,Chief Technology Officer hos Microsoft Azure, er beskriver det aktuelle arbejde på Azure:
Vores mål er at give organisationer mulighed for at køre deres arbejdsbelastninger pålideligt på Azure. Med dette som vores ledende princip investerer vi løbende i at udvikle Azure-platformen til at blive fejl elastisk, ikke kun for at øge virksomhedens produktivitet, men også for at give en problemfri kunde erfaring.
For at forhindre påvirkning af dine arbejdsbelastninger, tjenesten gør det muligt for komponenter at helbrede sig selv og hurtigt komme sig efter potentielle fejl, selv i kritiske værtsfejl.
Hvordan fungerer Project Tardigrade?
Her er et eksempel om, hvordan arbejdsprocessen for Tardigrade-gendannelse fungerer:
- Fase 1: Dette trin har ingen indvirkning på at køre virtuelle kunder. Det genbruger simpelthen alle tjenester, der kører på værten. I sjældne tilfælde, at den fejlbehæftede service ikke genstartes, fortsætter vi til fase 2.
- Fase 2: Vores diagnostiktjeneste kører på værten for systematisk at indsamle alle relevante logs / dumps for at sikre, at vi grundigt kan diagnosticere årsagen til fejl i fase 1. Denne omfattende analyse giver os mulighed for at 'grundårsage' problemet og derved forhindre gentagelser i fremtiden.
- Fase 3: På et højt niveau nulstiller vi operativsystemet til en sund tilstand med minimal kundepåvirkning for at afbøde værtsproblemet. I denne fase bevarer vi tilstandene for hver VM til RAM, hvorefter vi begynder at nulstille OS til en sund tilstand. Mens operativsystemet hurtigt nulstilles nedenunder, fryses kørende applikationer på alle virtuelle computere, der hostes på serveren, kortvarigt, da CPU'en midlertidigt er suspenderet. Denne oplevelse svarer til en netværksforbindelse, der midlertidigt er mistet, men genoptages hurtigt på grund af forsøgslogik. Når operativsystemet er nulstillet, forbruger VM'er deres lagrede tilstand og genoptager normal aktivitet og derved omgår eventuelle potentielle VM-genstarter.
Med dette i tankerne vil Project Tardigrade sikre det svigt af en enkelt komponent i værten påvirker ikke hele systemet. Som sådan vil kunde-VM'er ikke blive påvirket af værtsfejl.
Microsoft arbejder hårdt på at forbedre og udvide forskellige værtsfejlscenarier for at sikre, at deres cloud computing-platform er mere pålidelig end nogensinde.
Forvent nye udviklinger og andre pålidelighedsimplementeringer i den nærmeste fremtid.