
Nach mehreren Azure-Änderungen und Sicherheitsverbesserungen In den letzten Monaten hat Microsoft Project Tardigrade als neuesten Versuch vorgestellt, Azure zuverlässiger zu machen.
Project Tardigrade verhindert Plattformausfälle
Project Tardigrade ist ein neuer Dienst, der die Ausfallsicherheit von Azure verbessern soll. Es umfasst Risikominderungsstrategien, die Azure-VMs vor Plattformausfällen schützen.
So geht Mark Russinovich,Chief Technology Officer bei Microsoft Azure, ist beschreibend die aktuelle Arbeit an Azure:
Unser Ziel ist es, Unternehmen in die Lage zu versetzen, ihre Workloads zuverlässig in Azure auszuführen. Mit diesem Leitgedanken investieren wir kontinuierlich in die Weiterentwicklung der Azure-Plattform, um fehlerresistent, nicht nur zur Steigerung der Unternehmensproduktivität, sondern auch zur Bereitstellung eines nahtlosen Kunden Erfahrung.
Um Auswirkungen auf Ihre Workloads zu vermeiden, wird der Dienst ermöglicht es Komponenten, sich selbst bei kritischen Hostfehlern selbst zu reparieren und sich nach potenziellen Ausfällen schnell zu erholen.
Wie funktioniert Project Tardigrade?
Hier ist ein Beispiel zur Funktionsweise des Tardigrade-Wiederherstellungsworkflows:
- Phase 1: Dieser Schritt hat keine Auswirkungen auf die Ausführung von Kunden-VMs. Es recycelt einfach alle Dienste, die auf dem Host ausgeführt werden. In dem seltenen Fall, dass der fehlerhafte Dienst nicht erfolgreich neu gestartet wird, fahren wir mit Phase 2 fort.
- Phase 2: Unser Diagnosedienst wird auf dem Host ausgeführt, um alle relevanten Protokolle/Dumps systematisch zu sammeln, um sicherzustellen, dass wir die Fehlerursache in Phase 1 gründlich diagnostizieren können. Diese umfassende Analyse ermöglicht es uns, die Ursache des Problems zu finden und so ein erneutes Auftreten in der Zukunft zu verhindern.
- Phase 3: Auf hoher Ebene setzen wir das Betriebssystem mit minimalen Auswirkungen auf den Kunden in einen fehlerfreien Zustand zurück, um das Hostproblem zu mindern. Während dieser Phase behalten wir die Zustände jeder VM im RAM bei, wonach wir beginnen, das Betriebssystem in einen fehlerfreien Zustand zurückzusetzen. Während das Betriebssystem darunter schnell zurückgesetzt wird, „frieren“ laufende Anwendungen auf allen auf dem Server gehosteten VMs kurz ein, da die CPU vorübergehend angehalten wird. Diese Erfahrung ähnelt einer vorübergehend unterbrochenen Netzwerkverbindung, die jedoch aufgrund der Wiederholungslogik schnell wieder aufgenommen wird. Nachdem das Betriebssystem erfolgreich zurückgesetzt wurde, verbrauchen VMs ihren gespeicherten Zustand und nehmen die normale Aktivität wieder auf, wodurch potenzielle VM-Neustarts umgangen werden.
Vor diesem Hintergrund wird Project Tardigrade dafür sorgen, dass der Ausfall einer einzelnen Komponente des Hosts wirkt sich nicht auf das gesamte System aus. Daher sind Kunden-VMs nicht von Hostfehlern betroffen.
Microsoft arbeitet hart an der Verbesserung und Erweiterung der and verschiedene Host-Ausfallszenarien, um sicherzustellen, dass ihre Cloud-Computing-Plattform zuverlässiger denn je ist.
Erwarten Sie in naher Zukunft neue Entwicklungen und andere Zuverlässigkeitsimplementierungen.