Po několika Změny Azure a vylepšení zabezpečení v posledních několika měsících společnost Microsoft představuje Project Tardigrade jako svůj nejnovější pokus o zvýšení spolehlivosti Azure.
Project Tardigrade předchází poruchám platformy
Project Tardigrade je nová služba, jejímž cílem je zlepšit odolnost Azure. Zahrnuje strategie zmírňování, které chrání virtuální počítače Azure před selháním platformy.
Zde je návod, jak Mark Russinovich,Chief Technology Officer ve společnosti Microsoft Azure, is popisující aktuální práce na Azure:
Naším cílem je umožnit organizacím spolehlivě spouštět jejich úlohy v Azure. S tímto hlavním principem neustále investujeme do vývoje platformy Azure, která se má stát odolný vůči chybám, a to nejen ke zvýšení produktivity podnikání, ale také k zajištění bezproblémového zákazníka Zkušenosti.
Aby se zabránilo dopadu na vaše pracovní vytížení, služba umožňuje samoléčení komponent a rychlé zotavení z potenciálních poruch, a to i při kritických poruchách hostitele.
Jak Project Tardigrade funguje?
Tady je příklad o tom, jak funguje pracovní postup obnovy Tardigrade:
- Fáze 1: Tento krok nemá žádný dopad na provozování virtuálních počítačů zákazníků. Jednoduše recykluje všechny služby běžící na hostiteli. Ve výjimečných případech, kdy se chybná služba úspěšně restartuje, pokračujeme fází 2.
- Fáze 2: Naše diagnostická služba běží na hostiteli, aby systematicky shromažďovala všechny relevantní protokoly / výpisy, aby bylo zajištěno, že můžeme důkladně diagnostikovat důvod selhání ve fázi 1. Tato komplexní analýza nám umožňuje „způsobit příčinu“ problému a zabránit tak opakování v budoucnu.
- Fáze 3: Na vysoké úrovni jsme obnovili operační systém do zdravého stavu s minimálním dopadem na zákazníka, abychom zmírnili problém hostitele. Během této fáze zachováme stavy každého virtuálního počítače na RAM, poté začneme resetovat OS do zdravého stavu. Zatímco se operační systém rychle resetuje, spouštění aplikací na všech virtuálních počítačích hostovaných na serveru krátce „zamrzne“, protože CPU je dočasně pozastaveno. Tato zkušenost je podobná síťovému připojení dočasně ztracenému, ale rychle obnovenému kvůli logice opakování. Po úspěšném resetování OS virtuální počítače spotřebovávají svůj uložený stav a obnovují normální aktivitu, čímž obcházejí všechny potenciální restarty virtuálních počítačů.
S ohledem na to to Project Tardigrade zajistí porucha jakékoli jednotlivé komponenty v hostiteli nemá dopad na celý systém. Na virtuální počítače zákazníků tedy chyby hostitele nebudou mít vliv.
Společnost Microsoft tvrdě pracuje na vylepšení a rozšíření různé scénáře selhání hostitele, aby bylo zajištěno, že jejich cloudová výpočetní platforma je spolehlivější než kdy dříve.
V blízké budoucnosti očekávejte nový vývoj a další implementace spolehlivosti.