Dopo multipli Modifiche di Azure e miglioramenti della sicurezza negli ultimi due mesi, Microsoft ha presentato Project Tardigrade come nuovo tentativo di rendere Azure più affidabile.
Il progetto Tardigrade previene i guasti della piattaforma
Project Tardigrade è un nuovo servizio che mira a migliorare la resilienza di Azure. Include strategie di mitigazione che proteggono le macchine virtuali di Azure dagli errori della piattaforma.
Ecco come Mark Russinovich,Chief Technology Officer di Microsoft Azure, è descrivendo il lavoro attuale su Azure:
Il nostro obiettivo è consentire alle organizzazioni di eseguire i propri carichi di lavoro in modo affidabile su Azure. Con questo come nostro principio guida, investiamo continuamente nell'evoluzione della piattaforma Azure per diventare resilienza ai guasti, non solo per aumentare la produttività aziendale ma anche per fornire un cliente senza interruzioni Esperienza.
Per prevenire l'impatto sui carichi di lavoro, il servizio consente ai componenti di auto-ripararsi e di riprendersi rapidamente da potenziali guasti, anche in caso di guasti critici dell'host.
Come funziona il Progetto Tardigrade?
Ecco un esempio su come funziona il flusso di lavoro di recupero Tardigrade:
- Fase 1: questo passaggio non ha alcun impatto sull'esecuzione delle VM dei clienti. Ricicla semplicemente tutti i servizi in esecuzione sull'host. Nel raro caso in cui il servizio guasto non si riavvii correttamente, si passa alla Fase 2.
- Fase 2: il nostro servizio di diagnostica viene eseguito sull'host per raccogliere sistematicamente tutti i registri/dump pertinenti, per garantire che possiamo diagnosticare accuratamente il motivo dell'errore nella fase 1. Questa analisi completa ci consente di "causa alla radice" del problema e quindi di prevenire il ripetersi in futuro.
- Fase 3: a un livello elevato, reimpostiamo il sistema operativo in uno stato sano con un impatto minimo sul cliente per mitigare il problema dell'host. Durante questa fase conserviamo gli stati di ciascuna VM su RAM, dopodiché iniziamo a ripristinare il sistema operativo in uno stato sano. Mentre il sistema operativo si ripristina rapidamente al di sotto, l'esecuzione delle applicazioni su tutte le macchine virtuali ospitate sul server si "blocca" brevemente mentre la CPU viene temporaneamente sospesa. Questa esperienza è simile a una connessione di rete temporaneamente persa ma ripresa rapidamente a causa della logica dei tentativi. Dopo che il sistema operativo è stato ripristinato correttamente, le macchine virtuali consumano il loro stato archiviato e riprendono la normale attività, aggirando così eventuali riavvii delle macchine virtuali.
Con questo in mente, Project Tardigrade assicurerà che il guasto di qualsiasi singolo componente nell'host non ha alcun impatto sull'intero sistema. Pertanto, le VM dei clienti non saranno interessate da errori dell'host.
Microsoft sta lavorando duramente per migliorare ed espandere il diversi scenari di errore dell'host per assicurarsi che la loro piattaforma di cloud computing sia più affidabile che mai.
Aspettatevi nuovi sviluppi e altre implementazioni di affidabilità nel prossimo futuro.