Was ist beim Ausfall der Infrastruktur geschehen?
In beiden Rechenzentren der stepping stone AG laufen zwei redundante Core-Switches, welche die Cloud-Infrastruktur jeweils über einen Router mit dem Internet verbindet. Die Core-Switches in einem der beiden Rechenzentren haben aufgehört, den Netzwerkverkehr zu verarbeiten. Die Layer 2 Verbindungen der Switches zu den Umsystemen wurden jedoch aufrechterhalten. Dies hat dazu geführt, dass der Router die Verbindung zum fehlerhaften Switch als aktiv wahrgenommen hat und den vom Internet her kommenden Verkehr weiterhin angenommen und an den fehlerhaften Switch weitergeleitet hat. Dadurch hat die gesamte Infrastruktur die Verbindung zum Internet verloren.
Wie haben wir das Problem gelöst?
Nachdem die Border Gateway Protocol (BGP) Sitzung auf dem Router manuell deaktivert und somit der Failover-Mechanismus aktiv wurde, war das erste Rechenzentrum wieder vom Internet her erreichbar. Nachdem die fehlerhaft funktionierenden Core-Switches neu gestartet worden sind, war auch das zweite Rechenzentrum vom Internet her erreichbar. Die stoney cloud selbst hat wie geplant funktioniert und wir haben durch den Ausfall keinen Datenverlust erfahren.
Warum hat der Router Failover-Mechanismus nicht funktioniert?
Normalerweise wird der Router Failover-Mechanismus durch eine inaktive Layer 2 Verbindung ausgelöst. In diesem Falle deaktiviert der Router die BGP Sitzung automatisch und der zweite Router übernimmt den gesamten vom Internet her kommenden Verkehr. Dadurch, dass die Layer 2 Verbindungen aktiv waren, hat dieser Failover-Mechanismus nicht funktioniert.
Welche kurzfristigen Gegenmassnahmen haben wir getroffen?
Die stepping stone AG hat gemeinsam mit dem Rechenzentren-Betreiber einen Notfallplan aufgestellt, welcher sicherstellt, dass der Pikett Dienst des Rechenzentren-Betreibers und der stepping stone AG alarmiert wird, sollte die Verbindung zum Internet ein zweites Mal verloren gehen. In einem Fall wie diesem kann die BGP Sitzung direkt heruntergefahren werden, sodass der Failover-Mechanismus früher zum Tragen kommt. Ein allfälliger Netzwerkunterbruch würde somit viel kürzer ausfallen.
Welche mittelfristigen Gegenmassnahmen treffen wir?
Ab Mitte August wird die Switching-Infrastruktur der stepping stone AG modernisiert und in diesem Rahmen wird die gesamte Hardware ersetzt. Dieser Umbau sorgt für mehr Redundanz. Ausserdem kommt anstelle von Layer 2 Switching das moderne Layer 3 Protokoll BGP Ethernet VPN (EVPN) zum Einsatz, was das Erkennen und Behandeln fehlerhafter Verbindungen einfacher und zuverlässiger macht. Die dafür benötigte Hardware ist bereits vorhanden und erste Tests konnten erfolgreich durchgeführt werden. Einen Migrationsplan mit entsprechenden Terminen werden wir bis Mitte Juli kommunizieren.