Po wielu Zmiany na platformie Azure i ulepszenia bezpieczeństwa w ciągu ostatnich kilku miesięcy firma Microsoft przedstawiła Project Tardigrade jako najnowszą próbę zwiększenia niezawodności platformy Azure.. .
Projekt Tardigrade zapobiega awariom platformy
Project Tardigrade to nowa usługa, której celem jest poprawa odporności platformy Azure. Obejmuje strategie łagodzenia, które chronią maszyny wirtualne platformy Azure przed awariami platformy.
Oto jak Mark Russinovich,Chief Technology Officer w Microsoft Azure, jest opisując aktualna praca na Azure:
Naszym celem jest umożliwienie organizacjom niezawodnego uruchamiania obciążeń na platformie Azure. Mając to za naszą naczelną zasadę, nieustannie inwestujemy w rozwój platformy Azure, aby stać się odporność na awarie, nie tylko w celu zwiększenia produktywności biznesowej, ale także zapewnienia bezproblemowej obsługi klienta doświadczenie.
Aby zapobiec wpływowi na Twoje obciążenia, usługa umożliwia samonaprawianie się komponentów i szybkie przywracanie sprawności po potencjalnych awariach, nawet w przypadku krytycznych awarii hosta.
Jak działa Projekt Tardigrade?
Oto przykład jak działa proces odzyskiwania niesporczaków:
- Faza 1: Ten krok nie ma wpływu na uruchamianie maszyn wirtualnych klientów. Po prostu odtwarza wszystkie usługi działające na hoście. W rzadkim przypadku, gdy błędna usługa nie zostanie pomyślnie ponownie uruchomiona, przechodzimy do fazy 2.
- Faza 2: Nasza usługa diagnostyczna działa na hoście w celu systematycznego gromadzenia wszystkich odpowiednich dzienników/zrzutów, aby zapewnić, że możemy dokładnie zdiagnozować przyczynę niepowodzenia w fazie 1. Ta wszechstronna analiza pozwala nam „zakorzenić przyczynę” problemu, a tym samym zapobiec nawrotom w przyszłości.
- Faza 3: Na wysokim poziomie resetujemy system operacyjny do zdrowego stanu przy minimalnym wpływie na klienta, aby złagodzić problem z hostem. Podczas tej fazy zachowujemy stany każdej maszyny wirtualnej w pamięci RAM, po czym zaczynamy resetować system operacyjny do zdrowego stanu. Podczas gdy system operacyjny szybko resetuje się pod spodem, uruchamianie aplikacji na wszystkich maszynach wirtualnych hostowanych na serwerze na krótko „zawiesza się”, ponieważ procesor jest tymczasowo zawieszony. To doświadczenie jest podobne do chwilowego zerwania połączenia sieciowego, ale szybko wznowionego ze względu na logikę ponawiania ponawiania próby. Po pomyślnym zresetowaniu systemu operacyjnego maszyny wirtualne zużywają swój przechowywany stan i wznawiają normalną aktywność, omijając w ten sposób potencjalne ponowne uruchomienie maszyny wirtualnej.
Mając to na uwadze, Projekt Tardigrade zapewni, że awaria pojedynczego komponentu hosta nie wpływa na cały system. W związku z tym na maszyny wirtualne klientów nie będą miały wpływu błędy hosta.
Microsoft ciężko pracuje nad ulepszeniem i rozszerzeniem różne scenariusze awarii hosta, aby upewnić się, że ich platforma przetwarzania w chmurze jest bardziej niezawodna niż kiedykolwiek.
Spodziewaj się nowych rozwiązań i innych wdrożeń niezawodności w najbliższej przyszłości. .