Setelah beberapa Perubahan Azure dan peningkatan keamanan dalam beberapa bulan terakhir, Microsoft memperkenalkan Project Tardigrade sebagai upaya terbaru mereka untuk membuat Azure lebih andal.
Project Tardigrade mencegah kegagalan platform
Project Tardigrade adalah layanan baru yang bertujuan untuk meningkatkan ketahanan Azure. Ini mencakup strategi mitigasi yang melindungi Azure VM dari kegagalan platform.
Begini cara Mark Russinovich,Chief Technology Officer di Microsoft Azure, adalah menggambarkan pekerjaan saat ini di Azure:
Tujuan kami adalah memberdayakan organisasi untuk menjalankan beban kerja mereka dengan andal di Azure. Dengan ini sebagai prinsip panduan kami, kami terus berinvestasi dalam mengembangkan platform Azure menjadi tahan kesalahan, tidak hanya untuk meningkatkan produktivitas bisnis tetapi juga untuk menyediakan pelanggan yang mulus pengalaman.
Untuk mencegah dampak pada beban kerja Anda, layanan memungkinkan komponen untuk menyembuhkan diri sendiri dan dengan cepat pulih dari potensi kegagalan, bahkan dalam kesalahan host yang kritis.
Bagaimana cara kerja Proyek Tardigrade?
Ini sebuah contoh tentang cara kerja alur kerja pemulihan Tardigrade:
- Fase 1: Langkah ini tidak berdampak pada menjalankan VM pelanggan. Itu hanya mendaur ulang semua layanan yang berjalan di host. Dalam kasus yang jarang terjadi bahwa layanan yang rusak tidak berhasil dimulai ulang, kami melanjutkan ke Fase 2.
- Fase 2: Layanan diagnostik kami berjalan di host untuk mengumpulkan semua log/pembuangan yang relevan secara sistematis, untuk memastikan bahwa kami dapat mendiagnosis secara menyeluruh alasan kegagalan di Fase 1. Analisis komprehensif ini memungkinkan kami untuk 'mengakar penyebab' masalah dan dengan demikian mencegah terulangnya kembali di masa depan.
- Fase 3: Pada tingkat tinggi, kami mengatur ulang OS ke status yang sehat dengan dampak pelanggan yang minimal untuk mengurangi masalah host. Selama fase ini, kami mempertahankan status setiap VM ke RAM, setelah itu kami mulai mengatur ulang OS ke status yang sehat. Sementara OS dengan cepat mengatur ulang di bawahnya, menjalankan aplikasi pada semua VM yang dihosting di server sebentar 'membeku' karena CPU ditangguhkan sementara. Pengalaman ini mirip dengan koneksi jaringan yang terputus sementara tetapi dilanjutkan dengan cepat karena logika coba lagi. Setelah OS berhasil direset, VM menggunakan status tersimpannya dan melanjutkan aktivitas normal, sehingga menghindari kemungkinan reboot VM.
Dengan pemikiran ini, Project Tardigrade akan memastikan bahwa kegagalan salah satu komponen di host tidak berdampak pada keseluruhan sistem. Dengan demikian, VM pelanggan tidak akan terpengaruh oleh kesalahan host.
Microsoft bekerja keras untuk meningkatkan dan memperluas skenario kegagalan host yang berbeda untuk memastikan bahwa platform komputasi awan mereka lebih andal dari sebelumnya.
Harapkan perkembangan baru dan implementasi keandalan lainnya dalam waktu dekat.