Wie wir dieses Mal einen kühlen Kopf bewahrt haben

Wie wir aus dem Vorfall in unserem Rechenzentrum in Nürnberg im September 2024 gelernt haben, eine ähnliche Situation im Oktober zu verhindern.

Was ist passiert?

Am 9. Oktober 2024 verlor unser Rechenzentrum in Nürnberg kurzfristig den Stromanschluss zum öffentlichen Netz. Um 18:52 erkannte unsere unterbrechungsfreie Stromversorgung (USV) einen Stromausfall und übernahm die Versorgung, um sicherzustellen, dass alle Server und Netzwerktechniken ohne Unterbrechung weiterlaufen. Der Stromausfall betraf auch unser Kühlsystem.

Nachdem der Strom einige Sekunden später zurückkehrte, kamen jedoch nicht alle Komponenten des Kühlsystems automatisch wieder online. Eine der sechs Kühlsystempumpen steckte im Fehlermodus fest. Ein Alarm wurde ausgelöst, und ein Techniker des Rechenzentrums eilte herbei, um das Problem zu beheben.

Die Pumpe benötigte einen manuellen Reset. Wir haben den Reset durchgeführt, bevor die erhöhte Temperatur jegliche Server im Rechenzentrum beeinträchtigen konnte.

Alles in allem haben wir weniger als 60 Minuten gebraucht, um den Vorfall zu untersuchen, seine Auswirkungen zu mildern und letztendlich zu beheben.

Dies war nur dank der Lehren möglich, die wir aus dem Vorfall im September in dem selben Rechenzentrum gezogen haben. Dank der neuen Verfahren war unser vor Ort Team in der Lage, das betroffene Gerät schnell zu identifizieren und die Kühlpumpe manuell zurückzusetzen, ohne auf externe Unterstützung angewiesen zu sein.

Timeline des Events

  • 18:52: USV hat einen Stromausfall erkannt, alle Server blieben online
  • 19:24: Interne Alarme, die durch das Versagen des Kühlsystems ausgelöst wurden, welches nach Stromausfall nicht neu gestartet werden konnte
  • 19:30: Techniker des Rechenzentrums hat die Untersuchung begonnen
  • 20:14: Techniker des Rechenzentrums identifizierte eine der Kühlpumpen als im Reset-Modus feststeckend. Techniker des Rechenzentrums setzte die Pumpe manuell zurück und setzt sie somit wieder in den Arbeitsmodus.
  • 20:15: Vorfall abgeschlossen, keine Kunden wurden betroffen

Keine Auswirkungen auf die Migration zu Hub Europa

Dies ändert natürlich nichts an unserem Engagement, alle Server von Nürnberg kostenlos für alle Kunden nach unserem Hub Europe Rechenzentrum zu migrieren. Die Migration schreitet schnell voran und über 20.000 Server wurden bereits migriert.

Schlussfolgerungen und Fazit

Vielleicht fragst du dich jetzt, warum wir dich mit einer Situation belästigen, die letztendlich keinen Einfluss auf deine Server hatte. Wir möchten dir zeigen, dass wir es ernst gemeint haben, als wir sagten, dass wir aus dem Stromausfall im September lernen werden. Wir haben dieses Mal schneller gehandelt und unsere Prozesse waren besser.

Die Situation im Oktober hätte ähnliche Auswirkungen auf unsere Kunden wie der Stromausfall im September haben können. Dank der vorgenommenen Änderungen war jedoch kein einziger Kunde betroffen. Wir haben zwar noch einen langen Weg vor uns, aber wir werden weiterhin die Stabilität unserer Infrastruktur verbessern und das Kundenerlebnis optimieren.

Nach oben scrollen