Es ist immer DNS! – Wenn ein Cloud-Service plötzlich nicht mehr läuft

DNS ist das unsichtbare, aber entscheidende Rückgrat der Cloud. Die jüngsten Ausfälle im Herbst 2025 bei Azure sowie AWS zeigen: Wenn DNS nicht funktioniert, steht plötzlich alles still. Sei es bei E-Mails, Webanwendungen oder ganzen Streaming Diensten. Aber warum ist das so, und wie kann man solche Ausfälle vermeiden?

Ein Haiku ist eine traditionelle japanische Gedichtform aus drei Zeilen, die mit wenigen Worten eine prägnante Beobachtung festhält. Passenderweise existiert eines, das die IT-Welt beim DNS seit Jahren begleitet:

It’s not DNS
There’s no way it’s DNS
It was DNS

Was ist DNS und warum ist es für die Cloud wichtig?

Das Domain Name System (DNS) kann man sich als das „Telefonbuch“ des Internets vorstellen. Bei einem Telefonbuch möchte ich die Telefonnummer eines gewünschten Konakts mithilfe des Namens herausfinden. Beim DNS ist dies ähnlich, es übersetzt benutzerfreundliche Namen wie hslu.ch in für Computer verständliche IP-Adressen. Ohne DNS könnten Geräte im Netzwerk einander nicht finden.
In der Cloud ist DNS besonders wichtig, da Microservices, Datenbanken, S3 Buckets, Kubernetes Cluster und viele weitere Anwendungen darauf angewiesen sind. Fällt DNS aus oder gibt es Fehler, funktionieren viele Dienste nicht mehr. Es entsteht auch häufig eine Kettenreaktion und so kommt die gesamte Kommunikation zum stillstand.

DNS-Ausfälle und ihre Folgen

Azure (29. Oktober 2025)
Der Ausfall bei Azure wurde durch eine fehlerhafte Konfigurationsänderung im Dienst Azure Front Door (AFD) ausgelöst. AFD ist ein weltweit verteiltes Content Delivery Network (CDN) und zentraler Einstiegspunkt für viele Microsoft-Dienste wie auch viel Applikationen von Azure Kunden. Die unerwünschte Konfiguration brachte zahlreiche Knoten des CDN weltweit in einen inkonsistenten Zustand. Daraus Resultierte dass viele Anfragen nicht beantwortet wurden, weil notwendige Routinginformationen (auch DNS) nicht mehr verlässlich hergestellt werden konnten. DNS-Cache- und propagation Verzögerungen verlängerten dann zusätzlich die Störung deutlich. [1]

AWS (20. Oktober 2025)
Bei AWS führte ein Fehler im automatisierten DNS-Management von Amazon DynamoDB zu massiv erhöhten Fehlerquoten. Durch eine komplexe Race Condition zwischen verschiedenen Management-Komponenten wurden DNS-Einträge am zentralen DynamoDB-Endpunkt gelöscht und nicht automatisch wiederhergestellt, wodurch DynamoDB in AWS Region us-east-1 für Stunden unerreichbar war.
Die Störung breitete sich anschliessend auf weitere AWS-Dienste aus. Die Kaskade entstand, weil praktisch alle automatischen Cloud-Komponenten zuallererst eine DNS-Auflösung für den Ziel-Endpunkt benötigen. Fielen DNS-Antworten aus oder wurden fehlerhaft zurückgegeben, konnten Folgeprozesse nicht mehr ausgeführt werden. [2]

Schutz vor DNS Ausfällen

Beide Vorfälle zeigen, wie schnell schon kleine Fehler DNS-Anfragen verzögern oder ganz blockieren können. Weil jede Verbindung in der Cloud mit einer DNS-Auflösung startet, kann so ein kleines Problem zu großen Ausfällen ganzer Dienste führen. Um diese kritische Schwachstelle abzusichern, können folgende Massnahmen helfen:

  • Redundanz: Nutzung mehrfach verteilter, unabhängiger DNS-Provider zur Absicherung gegen einzelne Ausfälle.
  • Monitoring: Kontinuierliche Überwachung von DNS-Anfragen und Antwortzeiten, um Probleme frühzeitig zu erkennen.
  • Konfigurationskontrolle: Automatisierte Prüfungen und Validierungen vor Änderungen, um fehlerhafte Einträge zu vermeiden.
  • Notfallpläne & Backups: Vorgefertigte Wiederherstellungsprozeduren und gesicherte Konfigurationen für schnelle Reaktionen.

DNS wird meiner Meinung nach oft unterschätzt und grade die Überwachung leicht vernachlässigt. Wer DNS sorgfältig überwacht und pflegt, kann Störungen früh erkennen und echte Resilienz für seine System schaffen.

Quellen

[1] Azure Preliminary Post Incident Review, Tracking ID YKYN-BWZ, Azure Status
[2] AWS Post Event Summary, AWS Message

Beitrag teilen

Roman Kathriner

Roman Kathriner ist Platform Architect und bloggt aus dem Unterricht des CAS Cloud and Platform Manager.

Alle Beiträge ansehen von Roman Kathriner →

Schreibe einen Kommentar