После нескольких Изменения в Azure а также улучшения безопасности За последние пару месяцев Microsoft представляет Project Tardigrade как свою новейшую попытку сделать Azure более надежным.
Project Tardigrade предотвращает сбои платформы
Project Tardigrade - это новая служба, направленная на повышение отказоустойчивости Azure. Он включает стратегии предотвращения, которые защищают виртуальные машины Azure от сбоев платформы.
Вот как Марк Руссинович,Главный технический директор Microsoft Azure, является описание текущая работа в Azure:
Наша цель - дать организациям возможность надежно выполнять свои рабочие нагрузки в Azure. Руководствуясь этим нашим руководящим принципом, мы постоянно инвестируем в развитие платформы Azure, чтобы она стала отказоустойчивый, не только для повышения производительности бизнеса, но и для бесперебойной работы клиентов опыт.
Чтобы предотвратить влияние на ваши рабочие нагрузки, служба позволяет компонентам самовосстанавливаться и быстро восстанавливаться после потенциальных сбоев, даже при критических сбоях хоста.
Как работает Project Tardigrade?
Вот пример о том, как работает рабочий процесс восстановления тихоходок:
- Этап 1. Этот шаг не влияет на работу клиентских виртуальных машин. Он просто перезапускает все службы, работающие на хосте. В том редком случае, когда неисправная служба не перезапускается, мы переходим к Фазе 2.
- Этап 2: Наша служба диагностики запускается на хосте для систематического сбора всех соответствующих журналов / дампов, чтобы мы могли тщательно диагностировать причину сбоя на этапе 1. Такой всесторонний анализ позволяет нам выявить первопричину проблемы и тем самым предотвратить ее повторение в будущем.
- Этап 3. На высоком уровне мы сбрасываем ОС в работоспособное состояние с минимальным влиянием на клиента, чтобы уменьшить проблему с хостом. На этом этапе мы сохраняем состояния каждой виртуальной машины в ОЗУ, после чего начинаем сбрасывать ОС в работоспособное состояние. В то время как ОС быстро перезагружается, запущенные приложения на всех виртуальных машинах, размещенных на сервере, на короткое время «зависают», поскольку ЦП временно приостанавливается. Это похоже на временное отключение сетевого подключения, которое быстро возобновляется из-за логики повторной попытки. После успешного сброса ОС виртуальные машины используют свое сохраненное состояние и возобновляют нормальную деятельность, тем самым предотвращая любые возможные перезагрузки виртуальных машин.
Помня об этом, Project Tardigrade гарантирует, что отказ любого отдельного компонента в хосте не влияет на всю систему. Таким образом, отказы хоста не повлияют на клиентские виртуальные машины.
Microsoft прилагает все усилия, чтобы улучшить и расширить различные сценарии отказа хоста, чтобы убедиться, что их платформа облачных вычислений более надежна, чем когда-либо.
Ожидайте новых разработок и других средств повышения надежности в ближайшем будущем.