
Nakon višestrukog Azure promjene i poboljšanja sigurnosti u posljednjih nekoliko mjeseci Microsoft predstavlja Project Tardigrade kao svoj najnoviji pokušaj da Azure učini pouzdanijim.
Projekt Tardigrade sprečava kvarove platforme
Project Tardigrade nova je usluga koja ima za cilj poboljšati Azure otpornost. Uključuje strategije ublažavanja koje Azure VM-ove štite od kvarova platforme.
Evo kako je Mark Russinovich,Glavni direktor tehnologije za Microsoft Azure, je opisivanje trenutni rad na Azureu:
Cilj nam je osnažiti organizacije da pouzdano izvršavaju svoja radna opterećenja na Azureu. Uz ovo kao naše vodeće načelo, kontinuirano ulažemo u razvoj Azureove platforme koja će postati otporan na kvarove, ne samo za povećanje poslovne produktivnosti, već i za pružanje besprijekornog kupca iskustvo.
Da biste spriječili utjecaj na vaše radno opterećenje, usluga omogućuje komponentama da se samoizliječe i brzo oporave od potencijalnih kvarova, čak i u kritičnim greškama domaćina.
Kako funkcionira Project Tardigrade?
Evo primjer o tome kako djeluje tijek oporavka Tardigrade:
- Faza 1: Ovaj korak nema utjecaja na pokretanje korisničkih VM-ova. Jednostavno reciklira sve usluge pokrenute na hostu. U rijetkim slučajevima da se pogrešna usluga ne uspješno ponovno pokrene, prelazimo na fazu 2.
- Faza 2: Naša usluga dijagnostike radi na hostu kako bi sustavno prikupljala sve relevantne zapisnike / odlagališta, kako bi osigurala da možemo temeljito dijagnosticirati razlog kvara u fazi 1. Ova sveobuhvatna analiza omogućuje nam da "korijen" problem i na taj način spriječiti ponovne pojave u budućnosti.
- Faza 3: Na visokoj smo razini OS vratili u zdravo stanje s minimalnim utjecajem na kupca kako bismo ublažili problem s domaćinom. Tijekom ove faze čuvamo stanja svakog VM-a u RAM-u, nakon čega počinjemo resetirati OS u zdravo stanje. Iako se OS brzo resetira ispod, pokrenute aplikacije na svim VM-ovima hostiranim na poslužitelju nakratko se "zamrzavaju" jer je CPU privremeno suspendiran. Ovo je iskustvo slično mrežnoj vezi koja se privremeno gubi, ali se brzo nastavlja zbog logike ponovnog pokušaja. Nakon uspješnog resetiranja OS-a, VM-ovi troše svoje pohranjeno stanje i nastavljaju s normalnom aktivnošću, zaobilazeći tako sva potencijalna ponovna pokretanja VM-a.
Imajući to na umu, Project Tardigrade će to osigurati kvar bilo koje pojedinačne komponente u hostu ne utječe na cijeli sustav. Kao takvi, na klijentske VM-ove neće utjecati pogreške domaćina.
Microsoft naporno radi na poboljšanju i proširenju različiti scenariji neuspjeha hosta kako bi bili sigurni da je njihova platforma za računanje u oblaku pouzdanija nego ikad.
Očekujte novi razvoj i druge implementacije pouzdanosti u bliskoj budućnosti.