
여러 후 Azure 변경 과 보안 개선 지난 몇 달 동안 Microsoft는 Azure를보다 안정적으로 만들기위한 최신 시도로 Project Tardigrade를 도입했습니다.
Project Tardigrade는 플랫폼 장애를 방지합니다.
Project Tardigrade는 Azure 복원력 향상을 목표로하는 새로운 서비스입니다. 여기에는 플랫폼 오류로부터 Azure VM을 보호하는 완화 전략이 포함됩니다.
Mark Russinovich,Microsoft Azure의 최고 기술 책임자는 설명 Azure의 현재 작업 :
우리의 목표는 조직이 Azure에서 안정적으로 워크로드를 실행할 수 있도록 지원하는 것입니다. 이를 기본 원칙으로 삼아 Azure 플랫폼을 진화하는 데 지속적으로 투자하고 있습니다. 비즈니스 생산성을 향상시킬뿐만 아니라 원활한 고객을 제공하기위한 장애 복원력 경험.
워크로드에 미치는 영향을 방지하기 위해 서비스는 구성 요소를자가 치유하고 심각한 호스트 장애에서도 잠재적 인 장애로부터 신속하게 복구 할 수 있습니다.
Project Tardigrade는 어떻게 작동합니까?
여기에 예 Tardigrade 복구 워크 플로우의 작동 방식 :
- 1 단계 :이 단계는 고객 VM 실행에 영향을주지 않습니다. 단순히 호스트에서 실행중인 모든 서비스를 재활용합니다. 드물게 오류가 발생한 서비스가 성공적으로 다시 시작되지 않는 경우 2 단계로 진행합니다.
- 2 단계: 진단 서비스가 호스트에서 실행되어 모든 관련 로그 / 덤프를 체계적으로 수집하여 1 단계에서 실패 원인을 철저히 진단 할 수 있도록합니다. 이 포괄적 인 분석을 통해 문제를 '근본 원인'으로 만들어 향후 재발을 방지 할 수 있습니다.
- 3 단계: 상위 수준에서 호스트 문제를 완화하기 위해 고객 영향을 최소화하면서 OS를 정상 상태로 재설정합니다. 이 단계에서 각 VM의 상태를 RAM에 보존 한 후 OS를 정상 상태로 재설정하기 시작합니다. OS가 그 아래에서 신속하게 재설정되는 동안 서버에서 호스팅되는 모든 VM에서 실행중인 애플리케이션은 CPU가 일시적으로 일시 중지되므로 잠시 '멈 춥니 다'. 이 경험은 네트워크 연결이 일시적으로 끊어졌지만 재시도 논리로 인해 빠르게 재개되는 것과 유사합니다. OS가 성공적으로 재설정 된 후 VM은 저장된 상태를 사용하고 정상적인 활동을 재개하여 잠재적 인 VM 재부팅을 방지합니다.
이를 염두에두고 Project Tardigrade는 호스트에있는 단일 구성 요소의 장애는 전체 시스템에 영향을주지 않습니다. 따라서 고객 VM은 호스트 장애의 영향을받지 않습니다.
Microsoft는 클라우드 컴퓨팅 플랫폼이 그 어느 때보 다 안정적인지 확인하기 위해 다양한 호스트 장애 시나리오를 제공합니다.
가까운 장래에 새로운 개발 및 기타 안정성 구현을 기대하십시오.