След множество Промени в Azure и подобрения в сигурността през последните няколко месеца Microsoft представя Project Tardigrade като най-новия си опит да направят Azure по-надежден.
Project Tardigrade предотвратява отказите на платформата
Project Tardigrade е нова услуга, която има за цел да подобри устойчивостта на Azure. Включва стратегии за смекчаване, които защитават виртуалните машини Azure срещу откази на платформи.
Ето как Марк Русинович,Главен технологичен директор в Microsoft Azure, е описване текущата работа върху Azure:
Нашата цел е да дадем възможност на организациите да изпълняват надеждно своите натоварвания в Azure. С това като наш ръководен принцип, ние непрекъснато инвестираме в развитието на платформата Azure, за да се превърнем устойчив на неизправности, не само за повишаване на бизнес производителността, но и за осигуряване на безпроблемен клиент опит.
За да предотвратите въздействие върху вашите натоварвания, услугата дава възможност на компонентите да се самолекуват и бързо да се възстановят от потенциални повреди, дори при критични грешки на хоста.
Как работи Project Tardigrade?
Ето пример за това как работи работният процес на възстановяване Tardigrade:
- Фаза 1: Тази стъпка няма влияние върху работещите клиентски виртуални машини. Той просто рециклира всички услуги, изпълнявани на хоста. В редките случаи, когато повредената услуга не се рестартира успешно, преминаваме към Фаза 2.
- Фаза 2: Нашата услуга за диагностика работи на хоста, за да събира систематично всички съответни регистрационни файлове / сметища, за да гарантира, че можем напълно да диагностицираме причината за повредата във Фаза 1. Този изчерпателен анализ ни позволява да „първопричиним“ проблема и по този начин да предотвратим повторения в бъдеще.
- Фаза 3: На високо ниво възстановяваме операционната система в здраво състояние с минимално въздействие на клиентите, за да смекчим проблема с хоста. По време на тази фаза запазваме състоянията на всяка VM в RAM, след което започваме да нулираме ОС в здраво състояние. Докато операционната система бързо се нулира отдолу, стартираните приложения на всички виртуални машини, хоствани на сървъра, за кратко „замръзват“, тъй като процесорът временно е спрян. Това преживяване е подобно на временно изгубена мрежова връзка, но бързо възобновена поради логика за повторен опит. След като операционната система бъде успешно нулирана, виртуалните машини консумират запазеното си състояние и възобновяват нормалната активност, като по този начин заобикалят всички потенциални рестартирания на виртуална машина.
Имайки това предвид, Project Tardigrade ще гарантира, че отказът на всеки отделен компонент в хоста не оказва влияние върху цялата система. Като такива клиентските виртуални машини няма да бъдат засегнати от грешки на хоста.
Microsoft работи усилено за подобряване и разширяване на различни сценарии за неуспех на хоста, за да се уверите, че тяхната платформа за изчислителни облаци е по-надеждна от всякога.
Очаквайте нови разработки и други внедрения на надеждност в близко бъдеще.