Μετά από πολλαπλάσια Γαλάζιες αλλαγές και βελτιώσεις ασφαλείας τους τελευταίους δύο μήνες, η Microsoft παρουσιάζει το Project Tardigrade ως τη νεότερη προσπάθειά τους να κάνουν το Azure πιο αξιόπιστο.
Το Project Tardigrade αποτρέπει τις αποτυχίες της πλατφόρμας
Το Project Tardigrade είναι μια νέα υπηρεσία που στοχεύει στη βελτίωση της αντοχής των Azure. Περιλαμβάνει στρατηγικές μετριασμού που προστατεύουν τα Azure VM από αστοχίες πλατφόρμας.
Δείτε πώς ο Mark Russinovich,Ο Chief Technology Officer της Microsoft Azure, είναι περιγράφοντας το τρέχον έργο για το Azure:
Στόχος μας είναι να δώσουμε τη δυνατότητα στους οργανισμούς να εκτελούν τον φόρτο εργασίας τους αξιόπιστα στο Azure. Με αυτήν την κατευθυντήρια αρχή, επενδύουμε συνεχώς στην εξέλιξη της πλατφόρμας Azure για να γίνουμε ανθεκτικό σε σφάλματα, όχι μόνο για την ενίσχυση της παραγωγικότητας των επιχειρήσεων, αλλά και για την παροχή ενός απρόσκοπτου πελάτη εμπειρία.
Για την αποφυγή επιπτώσεων στο φόρτο εργασίας σας, η υπηρεσία επιτρέπει στα εξαρτήματα να αυτοθεραπευτούν και να ανακάμψουν γρήγορα από πιθανές αστοχίες, ακόμη και σε κρίσιμα σφάλματα κεντρικού υπολογιστή.
Πώς λειτουργεί το Project Tardigrade;
Εδώ είναι ένα παράδειγμα σχετικά με τον τρόπο λειτουργίας της ροής εργασίας ανάκτησης Tardigrade:
- Φάση 1: Αυτό το βήμα δεν έχει αντίκτυπο στην εκτέλεση VM πελατών. Ανακυκλώνει απλώς όλες τις υπηρεσίες που εκτελούνται στον κεντρικό υπολογιστή. Σε σπάνια περίπτωση που η ελαττωματική υπηρεσία δεν επανεκκινηθεί επιτυχώς, προχωράμε στη Φάση 2.
- Φάση 2: Η υπηρεσία διαγνωστικών μας λειτουργεί στον κεντρικό υπολογιστή για να συλλέγει συστηματικά όλα τα σχετικά αρχεία καταγραφής / απόρριψη, για να διασφαλίσει ότι μπορούμε να διαγνώσουμε διεξοδικά τον λόγο αποτυχίας στη Φάση 1. Αυτή η περιεκτική ανάλυση μας επιτρέπει να «ριζώσουμε» το ζήτημα και, συνεπώς, να αποτρέψουμε την επανεμφάνιση στο μέλλον.
- Φάση 3: Σε υψηλό επίπεδο, επαναφέρουμε το λειτουργικό σύστημα σε υγιή κατάσταση με ελάχιστο αντίκτυπο στους πελάτες για να μετριάσουμε το πρόβλημα του κεντρικού υπολογιστή. Κατά τη διάρκεια αυτής της φάσης διατηρούμε τις καταστάσεις κάθε VM σε RAM, μετά την οποία αρχίζουμε να επαναφέρουμε το λειτουργικό σύστημα σε μια υγιή κατάσταση. Ενώ το λειτουργικό σύστημα επαναφέρει γρήγορα από κάτω, η εκτέλεση εφαρμογών σε όλα τα VM που φιλοξενούνται στον διακομιστή «παγώνει» για λίγο καθώς η CPU έχει τεθεί προσωρινά σε αναστολή. Αυτή η εμπειρία είναι παρόμοια με μια σύνδεση δικτύου που χάθηκε προσωρινά, αλλά επαναλήφθηκε γρήγορα λόγω επανάληψης λογικής. Μετά την επιτυχή επαναφορά του λειτουργικού συστήματος, οι VM καταναλώνουν την αποθηκευμένη κατάστασή τους και συνεχίζουν την κανονική δραστηριότητα, παρακάμπτοντας έτσι τυχόν πιθανές επανεκκινήσεις VM.
Έχοντας αυτό κατά νου, το Project Tardigrade θα το διασφαλίσει αυτό η αποτυχία οποιουδήποτε στοιχείου στον κεντρικό υπολογιστή δεν επηρεάζει ολόκληρο το σύστημα. Ως εκ τούτου, τα VM πελατών δεν θα επηρεαστούν από σφάλματα κεντρικού υπολογιστή.
Η Microsoft εργάζεται σκληρά για τη βελτίωση και την επέκταση του διαφορετικά σενάρια αποτυχίας κεντρικού υπολογιστή για να βεβαιωθείτε ότι η πλατφόρμα cloud computing τους είναι πιο αξιόπιστη από ποτέ.
Αναμείνετε νέες εξελίξεις και άλλες υλοποιήσεις αξιοπιστίας στο εγγύς μέλλον.