După multiple Schimbări azur și îmbunătățiri de securitate în ultimele două luni, Microsoft introduce Project Tardigrade ca cea mai nouă încercare de a face Azure mai fiabil.
Project Tardigrade previne eșecurile platformei
Project Tardigrade este un nou serviciu care are ca scop îmbunătățirea rezilienței Azure. Include strategii de atenuare care protejează mașinile virtuale Azure împotriva eșecurilor platformei.
Iată cum Mark Russinovici,Director tehnologic la Microsoft Azure, este descriind lucrarea curentă despre Azure:
Obiectivul nostru este de a împuternici organizațiile să își desfășoare sarcinile de lucru în mod fiabil pe Azure. Având acest principiu de bază, investim continuu în dezvoltarea platformei Azure pentru a deveni rezistent la defecțiuni, nu numai pentru a spori productivitatea afacerii, ci și pentru a oferi un client fără probleme experienţă.
Pentru a preveni impactul asupra sarcinilor dvs. de lucru, serviciul permite componentelor să se autovindece și să se recupereze rapid de la potențiale defecțiuni, chiar și în cazul defecțiunilor critice ale gazdei.
Cum funcționează Project Tardigrade?
Iată un exemplu despre cum funcționează fluxul de lucru de recuperare Tardigrade:
- Faza 1: acest pas nu are impact asupra rulării VM-urilor clienților. Pur și simplu reciclează toate serviciile care rulează pe gazdă. În cazul rar în care serviciul defect nu repornește cu succes, trecem la faza 2.
- Faza 2: Serviciul nostru de diagnosticare rulează pe gazdă pentru a colecta sistematic toate jurnalele / depozitele relevante, pentru a ne asigura că putem diagnostica temeinic motivul eșecului în faza 1. Această analiză cuprinzătoare ne permite să „cauzăm rădăcina” problemei și astfel să prevenim reapariția în viitor.
- Faza 3: la un nivel ridicat, resetăm sistemul de operare într-o stare sănătoasă, cu impact minim asupra clienților, pentru a atenua problema gazdei. În această fază păstrăm stările fiecărei VM în RAM, după care începem să resetăm sistemul de operare într-o stare sănătoasă. În timp ce sistemul de operare se resetează rapid dedesubt, aplicațiile care rulează pe toate VM-urile găzduite pe server se „înghețează” pe scurt, deoarece CPU este suspendat temporar. Această experiență este similară cu o conexiune de rețea pierdută temporar, dar reluată rapid datorită logicii reîncercării. După ce sistemul de operare este resetat cu succes, VM-urile își consumă starea stocată și reiau activitatea normală, eludând astfel orice posibilă repornire a VM-ului.
Având în vedere acest lucru, Project Tardigrade va asigura acest lucru eșecul oricărei componente din gazdă nu are impact asupra întregului sistem. Ca atare, VM-urile clienților nu vor fi afectate de erori de gazdă.
Microsoft lucrează din greu pentru a îmbunătăți și extinde diferite scenarii de eșec al gazdei pentru a vă asigura că platforma lor de cloud computing este mai fiabilă ca niciodată.
Așteptați noi dezvoltări și alte implementări de fiabilitate în viitorul apropiat.