複数の後 Azureの変更 そして セキュリティの改善 過去数か月で、MicrosoftはAzureをより信頼性の高いものにするための最新の試みとしてProjectTardigradeを導入しています。
プロジェクトクマムシはプラットフォームの障害を防ぎます
Project Tardigradeは、Azureの復元力を向上させることを目的とした新しいサービスです。 これには、プラットフォームの障害からAzureVMを保護する緩和戦略が含まれています。
マーク・ルシノビッチ、MicrosoftAzureの最高技術責任者は 記述 Azureでの現在の作業:
私たちの目標は、組織がAzure上でワークロードを確実に実行できるようにすることです。 これを指針として、Azureプラットフォームを進化させて ビジネスの生産性を高めるだけでなく、シームレスな顧客を提供するための障害回復力 経験。
ワークロードへの影響を防ぐために、サービス 重大なホスト障害が発生した場合でも、コンポーネントが自己回復し、潜在的な障害から迅速に回復できるようにします。
プロジェクトクマムシはどのように機能しますか?
これが 例 クマムシの回復ワークフローがどのように機能するかについて:
- フェーズ1:この手順は、お客様のVMの実行には影響しません。 ホスト上で実行されているすべてのサービスをリサイクルするだけです。 障害のあるサービスが正常に再起動しないというまれなケースでは、フェーズ2に進みます。
- フェーズ2:診断サービスがホスト上で実行され、関連するすべてのログ/ダンプが体系的に収集され、フェーズ1で失敗した理由を完全に診断できるようになります。 この包括的な分析により、問題の「根本原因」を特定し、それによって将来の再発を防ぐことができます。
- フェーズ3:大まかに言えば、ホストの問題を軽減するために、お客様への影響を最小限に抑えてOSを正常な状態にリセットします。 このフェーズでは、各VMの状態をRAMに保存し、その後、OSを正常な状態にリセットし始めます。 OSがその下ですばやくリセットされている間、サーバーでホストされているすべてのVMで実行中のアプリケーションは、CPUが一時的に停止されているため、一時的に「フリーズ」します。 このエクスペリエンスは、ネットワーク接続が一時的に失われたが、再試行ロジックのためにすぐに再開されたのと似ています。 OSが正常にリセットされた後、VMは保存された状態を消費し、通常のアクティビティを再開します。これにより、VMの再起動の可能性を回避できます。
これを念頭に置いて、プロジェクトクマムシは ホスト内の単一のコンポーネントに障害が発生しても、システム全体に影響はありません。 そのため、お客様のVMはホスト障害の影響を受けません。
マイクロソフトは、 クラウドコンピューティングプラットフォームの信頼性をこれまで以上に高めるためのさまざまなホスト障害シナリオ。
近い将来、新しい開発やその他の信頼性の実装を期待してください。