Depois de múltiplo Mudanças do Azure e melhorias de segurança nos últimos meses, a Microsoft está apresentando o Project Tardigrade como sua mais nova tentativa de tornar o Azure mais confiável.
Projeto Tardigrade evita falhas de plataforma
Projeto Tardigrade é um novo serviço que visa melhorar a resiliência do Azure. Inclui estratégias de mitigação que protegem as VMs do Azure contra falhas de plataforma.
É assim que Mark Russinovich,Diretor de Tecnologia da Microsoft Azure, é descrevendo o trabalho atual no Azure:
Nosso objetivo é capacitar as organizações para executar suas cargas de trabalho de forma confiável no Azure. Com isso como nosso princípio orientador, estamos continuamente investindo na evolução da plataforma Azure para se tornar resiliente a falhas, não apenas para aumentar a produtividade dos negócios, mas também para fornecer um cliente perfeito experiência.
Para evitar impacto em suas cargas de trabalho, o serviço permite que os componentes se autocurem e se recuperem rapidamente de falhas em potencial, mesmo em falhas críticas do host.
Como funciona o Projeto Tardígrado?
Aqui está um exemplo sobre como funciona o fluxo de trabalho de recuperação do Tardigrade:
- Fase 1: esta etapa não tem impacto na execução de VMs do cliente. Ele simplesmente recicla todos os serviços em execução no host. No caso raro de o serviço com falha não reiniciar com êxito, passamos para a Fase 2.
- Fase 2: Nosso serviço de diagnóstico é executado no host para coletar todos os logs / despejos relevantes sistematicamente, para garantir que possamos diagnosticar completamente o motivo da falha na Fase 1. Essa análise abrangente nos permite "causar a raiz" do problema e, assim, evitar recorrências no futuro.
- Fase 3: em um alto nível, redefinimos o sistema operacional para um estado íntegro com impacto mínimo no cliente para mitigar o problema do host. Durante essa fase, preservamos os estados de cada VM na RAM, após o que começamos a redefinir o sistema operacional para um estado íntegro. Enquanto o sistema operacional é redefinido rapidamente por baixo, os aplicativos em execução em todas as VMs hospedadas no servidor "congelam" por um momento, pois a CPU é temporariamente suspensa. Essa experiência é semelhante a uma conexão de rede perdida temporariamente, mas retomada rapidamente devido à lógica de nova tentativa. Depois que o sistema operacional é redefinido com êxito, as VMs consomem seu estado armazenado e retomam a atividade normal, evitando assim qualquer reinicialização potencial da VM.
Com isso em mente, o Projeto Tardígrado irá garantir que a falha de qualquer componente único no host não afeta todo o sistema. Assim, as VMs do cliente não serão afetadas por falhas de host.
A Microsoft está trabalhando muito para melhorar e expandir o diferentes cenários de falha de host para garantir que sua plataforma de computação em nuvem seja mais confiável do que nunca.
Espere novos desenvolvimentos e outras implementações de confiabilidade em um futuro próximo.