Tippfehler: Zehnstündiger Microsoft Azure Cloud-Ausfall
Wegen eines einfachen Tippfehlers kam es bei Microsoft Azure zu einem für 10 Stunden andauernden Cloud-Ausfall. Mehr erfahren Sie hier.
Längere Ausfälle bei Cloud-Diensten sind für alle Beteiligten ärgerlich, aber auch bei Weitem nicht alltäglich. Renommierte Cloud-Betreiber und Softwareanbieter setzen alles daran, Ausfallzeiten so gering wie möglich zu halten und im Falle eines Zwischenfalls schnellstmöglich zu reagieren. Dennoch kann es, wie in jedem anderen Bereich auch, ab und an zu Zwischenfällen kommen.
Zu einem dieser Zwischenfälle kam es vor kurzem auch bei der Microsoft Azure Cloud. Dass der jüngste Ausfall aktuell gerade durch die Medien geht, dürfte dabei vornehmlich an der vergleichsweise ungewöhnlichen Ursache liegen, wie t3n in einem aktuellen Bericht aufgreift (vgl. t3n.de, 06.06.2023).
Über Microsoft Azure
Kommen wir jedoch zunächst einmal zu den Grundlagen. Microsoft Azure ist eine etablierte Cloud-Computing-Plattform des Tech-Giganten Microsoft. Dienste wie SQL Azure oder AppFabric dürften vor allem Entwicklern bekannt sein. Über Azure werden Kunden sowohl Software-as-a-Service (SaaS) als auch Platform-as-a-Service (PaaS) und Infrastructure-as-a-Service (IaaS)-Dienstleistungen angeboten.
Verfügbarkeit der Infrastruktur
Verfügbar ist Azure seit Februar 2010. Das Unternehmen ergreift zahlreiche Maßnahmen, um die Verfügbarkeit der Infrastruktur zu gewährleisten. Diese erstrecken sich sowohl über konkrete Pläne zur Notfallwiederherstellung als auch über Maßnahmen zur Speicher- und Datenverfügbarkeit.
Azure-Ausfall: Was geschah
Eigentlich sollten es nur Routinearbeiten an der Azure-DevOps-Plattform sein. So würden zur Prüfung von Kundenbeschwerden und Verbesserungsmöglichkeiten ab und an Snapshots von Datenbanken aufgenommen werden, welche nach einem bestimmten Zeitraum automatisch gelöscht würden, so t3n (vgl. t3n.de, 06.06.2023).
Tippfehler sorgt für Ausfall
Dann kam es jedoch zu einem Tippfehler, welcher sich als folgenschwer herausstellte, wie t3n in Berufung auf den zuständigen Microsoft-Manager Eric Mattingly berichtet.
DevOps sei am 24. bzw. 25. Mai für mehrere Stunden in einer der Angebotsregionen Microsofts in Brasilien ausgefallen, wie t3n berichtet (vgl. t3n.de, 06.06.2023).
Denn: Statt der Snapshot-Datenbanken sei der gesamte SL-Server gelöscht worden, und mit diesem 17 produktive Datenbanken, so t3n. Verursacht worden sei dies durch ein Code-Update mit Pull-Request, im Rahmen welches API-Aufrufe ausgetauscht wurden (vgl. t3n.de, 06.06.2023).
Was sind Pull-Requests?
Pull-Requests oder Pull Requests werden auch als Merge Requests bezeichnet. Hierbei handelt es sich um einen Prozess aus der Versionsverwaltung, im Rahmen welches Änderungen am Quellcode vorgenommen werden. In jenem Pull-Request befand sich jedoch in diesem Fall besagter Tippfehler, welcher die Löschung und schlussendlich einen mehrstündigen Ausfall zur Folge hatte.
Probleme bei der Wiederherstellung
Entdeckt wurde das Problem zwar zeitnah. Doch es folgten wohl einige kleinere Probleme, die den Wiederherstellungsprozess erschwerten und so zeitlich in die Länge zogen. So habe es unter anderem Probleme mit den Webservern gegeben.
So hätten Kunden auch dann noch nicht vollständig auf ihre Daten zugreifen können, als die Datenbanken bereits wieder online waren, wie t3n berichtet. Darüber hinaus kam es zu Schwierigkeiten mit der Nutzung älterer Updates. Diese seien noch nicht auf die aktuell zum Einsatz kommenden geozonenredundanten Speichermöglichkeiten ausgelegt gewesen.
Ein Blick in die Zukunft
Microsoft wolle daher künftig unter anderem alle Azure-SQL-Datenbanken als geozonenredundant konfigurieren, um zukünftige Ausfälle zu vermeiden. Auch wolle das Unternehmen produktive Datenbanken separat von Snapshot-Datenbanken unterbringen, wie t3n berichtet (vgl. t3n.de, 06.06.2023).
Was ist Georedundanz?
Das Konzept der Georedundanz umfasst die Nutzung von zwei geographisch voneinander entfernten Rechenzentren. Diese besitzen denselben Datenbestand und können im Falle eines Zwischenfalls für den anderen einspringen.
Durch die geographische Distanz soll vor allem auch Ausfällen, die durch Katastrophen o.Ä. verursacht werden, vorgebeugt werden (vgl. open-telekom-cloud.com, 07.06.2023).
7 Juni 2023
Starten Sie Ihre ERP-Auswahl
Finden Sie das richtige ERP-System für Ihr Unternehmen
Die Cloud & der Datenschutz: Microsoft 365 an Schulen?
Können Schulen Microsoft 365 datenschutzkonform nutzen?
Lesen Sie weiterMicrosoft Copilot: Was ist neu?
Copilot-Nutzer - und die, die es werden wollen - erwarten dieses Jahr einige Neuerungen.
Lesen Sie weiterTeams-Integration: Wie sieht die EU Microsofts Marktmacht?
Die Europäische Union leitet ein Verfahren gegen Microsoft ein, um zu prüfen, ob das Unternehmen gegen Wettbewerbsregeln verstößt.
Lesen Sie weiter