{"id":20384,"date":"2024-09-13T10:29:15","date_gmt":"2024-09-13T08:29:15","guid":{"rendered":"https:\/\/contabo.com\/blog\/?p=20384"},"modified":"2024-09-13T10:29:48","modified_gmt":"2024-09-13T08:29:48","slug":"root-cause-analyse-des-ausfalls-des-nuernberger-rechenzentrums-im-september-2024","status":"publish","type":"post","link":"https:\/\/contabo.com\/blog\/de\/root-cause-analyse-des-ausfalls-des-nuernberger-rechenzentrums-im-september-2024\/","title":{"rendered":"Root-Cause-Analyse des Ausfalls des N\u00fcrnberger Rechenzentrums im September 2024"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1.jpg\" alt=\"preview incident downtime\" class=\"wp-image-20378\" srcset=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1.jpg 1200w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1-600x315.jpg 600w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1-768x403.jpg 768w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/figure>\n\n\n\n<p>Ein ausf\u00fchrlicher Bericht inklusive Zeitplan des Vorfalls, der Schritte, die wir unternommen haben, um ihn zu beheben, und der Ma\u00dfnahmen, die wir ergreifen, um in Zukunft besser darauf zu reagieren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-was-ist-genau-passiert\"><strong>Was ist genau passiert?<\/strong><\/h2>\n\n\n\n<p>Am 2. September 2024 wurden alle VPS, Dedicated Server und Object Storage-Instanzen im N\u00fcrnberger Rechenzentrum unzug\u00e4nglich. Das Customer Control Panel, der Support per E-Mail und Telefon sowie das Aufgeben neuer Bestellungen funktionierten ebenfalls nicht mehr.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-waren-die-instanzen-der-kunden-und-die-systeme-von-contabo-nicht-verfugbar\"><strong>Warum waren die Instanzen der Kunden und die Systeme von Contabo nicht verf\u00fcgbar?<\/strong><\/h3>\n\n\n\n<p>Die Instanzen der Kunden und die Contabo-Systeme (wie das Customer Control Panel und die Support-Kan\u00e4le) wurden heruntergefahren und waren deshalb nicht verf\u00fcgbar, um zu verhindern, dass die Temperatur im Rechenzentrum \u00fcber 40\u00b0C (104\u00b0F) steigt, was die maximale Betriebstemperatur f\u00fcr unsere Server und Netzwerkger\u00e4te darstellt. Dies wurde auch getan, um Sch\u00e4den an HDD-, SSD- und NVMe-Speichern zu vermeiden, die zu Datenverlust f\u00fchren k\u00f6nnten.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-stieg-die-temperatur-im-nurnberger-rechenzentrum-uber-40-c\"><strong>Warum stieg die Temperatur im N\u00fcrnberger Rechenzentrum \u00fcber 40\u00b0C?<\/strong><\/h3>\n\n\n\n<p>Die Temperatur im Rechenzentrum N\u00fcrnberg stieg an, weil die Klimaanlage die Luft im Rechenzentrum nicht k\u00fchlte. Server erzeugen w\u00e4hrend des Betriebs W\u00e4rme, und ohne funktionierende Klimaanlage stieg die Temperatur \u00fcber das sichere Limit. Die hohen Au\u00dfentemperaturen haben die Situation zus\u00e4tzlich versch\u00e4rft.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-hat-das-kuhlsystem-nicht-funktioniert\"><strong>Warum hat das K\u00fchlsystem nicht funktioniert?<\/strong><\/h3>\n\n\n\n<p>Das K\u00fchlsystem h\u00f6rte auf zu k\u00fchlen, weil es sich automatisch abgeschaltet hat und sich nicht wieder einschaltete.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-wurde-das-kuhlsystem-automatisch-abgeschaltet\"><strong>Warum wurde das K\u00fchlsystem automatisch abgeschaltet?<\/strong><\/h3>\n\n\n\n<p>Das K\u00fchlsystem wurde automatisch abgeschaltet, weil das N\u00fcrnberger Rechenzentrum auf die unterbrechungsfreie Stromversorgung (USV) als Notstromversorgung umgeschaltet hat. Es ist ein standardm\u00e4\u00dfiger Prozess, das K\u00fchlsystem abzuschalten, wenn die USV die Stromversorgung \u00fcbernimmt, und es einige Minuten sp\u00e4ter wieder einzuschalten, sobald entweder der Dieselgenerator einspringt oder der Strom aus dem \u00f6ffentlichen Netz wiederhergestellt ist.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-hat-das-nurnberger-rechenzentrum-auf-usv-als-notstromversorgung-umgeschaltet\"><strong>Warum hat das N\u00fcrnberger Rechenzentrum auf USV als Notstromversorgung umgeschaltet?<\/strong><\/h3>\n\n\n\n<p>Es gab eine Spannungsschwankung im lokalen Stromnetz. Dadurch haben unsere Systeme automatisch auf die USV umgeschaltet, um die Stromversorgung durchgehend sicherzustellen, und deswegen wurde das K\u00fchlsystem vor\u00fcbergehend abgeschaltet. Die USV war f\u00fcr 3 Sekunden aktiv, bevor die Hauptstromversorgung wieder \u00fcbernommen hat.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-gab-es-spannungsschwankungen-im-lokalen-stromnetz\"><strong>Warum gab es Spannungsschwankungen im lokalen Stromnetz?<\/strong><\/h3>\n\n\n\n<p>Die Spannungsschwankungen im lokalen Stromnetz wurden durch ein starkes Gewitter mit Blitzeinschl\u00e4gen in ganz Franken, besonders um N\u00fcrnberg, verursacht.&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"772\" height=\"767\" src=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/weather.jpg\" alt=\"Wetterbericht \/ Frankenkarte mit Sturm\u00fcbersicht\" class=\"wp-image-20386\" srcset=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/weather.jpg 772w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/weather-600x596.jpg 600w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/weather-150x150.jpg 150w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/weather-768x763.jpg 768w\" sizes=\"auto, (max-width: 772px) 100vw, 772px\" \/><figcaption class=\"wp-element-caption\">Wetterbericht \/ Frankenkarte mit Sturm\u00fcbersicht<\/figcaption><\/figure>\n\n\n\n<p>Unser Rechenzentrum ist mit Blitzableitern ausgestattet, um es vor den Auswirkungen eines direkten Blitzeinschlags zu sch\u00fctzen. Allerdings k\u00f6nnen Blitzableiter nicht die Auswirkungen von Blitzeinschl\u00e4gen abmildern, die andere Strukturen wie \u00dcbertragungsleitungen treffen, die sich manchmal mehrere Kilometer von unserem Geb\u00e4ude entfernt befinden.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-warum-hat-sich-das-kuhlsystem-nicht-automatisch-wieder-eingeschaltet\"><strong>Warum hat sich das K\u00fchlsystem nicht automatisch wieder eingeschaltet?<\/strong><\/h3>\n\n\n\n<p>Das K\u00fchlsystem hat sich wegen einer St\u00f6rung im Steuerbus nicht automatisch wieder eingeschaltet. Auch unsere manuellen Versuche, die K\u00fchlsysteme neu zu starten, waren erfolglos. Die K\u00fchlung konnte erst wiederhergestellt werden, nachdem ein autorisierter Techniker der Firma, die die K\u00fchleinheiten bereitstellt, einen Hard-Reboot durchgef\u00fchrt hat.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-exakte-timeline-des-vorfalls\"><strong>Exakte Timeline des Vorfalls<\/strong><\/h2>\n\n\n\n<p>Hier ist eine detaillierte Timeline des Vorfalls (CEST-Zeit), die unsere Reaktion und die wichtigsten Ma\u00dfnahmen zur Wiederherstellung der Dienste beschreibt:<\/p>\n\n\n\n<p><strong>2. Sep 2024, 07:14 Uhr<\/strong>:&nbsp; Spannungsschwankungen erkannt, Stromversorgung automatisch auf USV umgeschaltet. Server laufen weiter, K\u00fchlsysteme werden abgeschaltet.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 07:14 Uhr:<\/strong> Stromversorgung aus dem Netz nach 3 Sekunden wiederhergestellt, K\u00fchlsystem startet nicht neu.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 07:14 Uhr:<\/strong> \u00dcberwachungsalarm \u00fcber die Umschaltung auf USV und das Ausfallen der K\u00fchler wird an das Rechenzentrumspersonal gesendet. Der Vorfallprozess wurde gestartet. Die Temperatur beginnt zu steigen.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 07:33 Uhr:<\/strong> \u00dcberwachungsalarm, dass der erste Serverraum eine kritische Temperatur erreicht hat, das Personal bewertet die Situation.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 08:13 Uhr:<\/strong> Erste Contabo-Systeme werden heruntergefahren.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 08:41 Uhr:<\/strong> Team vor Ort stellt fest, dass sie die K\u00fchlsysteme nicht manuell einschalten k\u00f6nnen. Kurz darauf wird ein Techniker der K\u00fchlsystemfirma angefordert. Der Techniker ist jedoch nicht sofort verf\u00fcgbar, da er bereits bei anderen Unternehmen in der Region, die von einem \u00e4hnlichen Problem betroffen sind, im Einsatz ist.<br><br><strong>2. Sep 2024, 11:30 &#8211; 12:08 Uhr:<\/strong> Die Temperatur \u00fcberschreitet in einem Serverraum nach dem anderen die sichere Grenze, Server werden heruntergefahren, um Sch\u00e4den und Datenverlust zu vermeiden.<br><br><strong>2. Sep 2024, 12:55 Uhr:<\/strong> Der Regen h\u00f6rt auf, wodurch die Rauchschutzklappen zur Bel\u00fcftung ge\u00f6ffnet werden k\u00f6nnen. Industrielle Ventilatoren werden aktiviert, um die hei\u00dfe Luft schneller zu entfernen. Die Temperatur beginnt zu sinken.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 13:55 Uhr:<\/strong> Kernnetzwerkverbindungen und -komponenten werden wiederhergestellt.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 14:25 Uhr:<\/strong> K\u00fchlsystem startet nach dem Besuch eines externen Technikers wieder.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 15:05 Uhr:<\/strong> Server werden nach und nach wieder hochgefahren, da die Temperatur weiter sinkt.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 15:30 Uhr:<\/strong> Der Object Storage-Cluster ist wieder online.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 15:42 Uhr:<\/strong> Contabo-Systeme, einschlie\u00dflich des Customer Control Panels, sind vollst\u00e4ndig wiederhergestellt.<\/p>\n\n\n\n<p><strong>2. Sep 2024, 18:00 Uhr:<\/strong> 95% der Server sind wieder online.<\/p>\n\n\n\n<p><strong>3. Sep 2024, 19:55 Uhr:<\/strong> Vorfall abgeschlossen. Einzelne Berichte \u00fcber Probleme mit Virtual und Dedicated Servern werden wie gewohnt vom technischen Support-Team bearbeitet.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-nbsp-wie-sieht-es-mit-redundanz-aus\">&nbsp;<strong>Wie sieht es mit Redundanz aus?<\/strong><\/h2>\n\n\n\n<p>Alle kritischen Systeme im N\u00fcrnberger Rechenzentrum wurden mit N+1-Redundanz eingerichtet. Das bedeutet, dass beispielsweise bei Bedarf von 2 K\u00fchleinheiten f\u00fcr die Klimaanlage (N=2), insgesamt 3 Einheiten installiert wurden (N+1 = 2+1 = 3). Dasselbe Prinzip gilt auch f\u00fcr andere wichtige Systeme wie Stromversorgung oder Internetverbindung. Das oben beschriebene Umschalten auf die USV ist ein Beispiel f\u00fcr die funktionierende Redundanz der Stromversorgung. Leider konnten die vorhandenen Redundanzen den Ausfall, wie oben beschrieben, nicht verhindern.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-wie-sieht-es-mit-fallback-systemen-fur-contabo-systeme-wie-das-customer-control-panel-oder-support-kanale-aus\"><strong>Wie sieht es mit Fallback-Systemen f\u00fcr Contabo-Systeme (wie das Customer Control Panel oder Support-Kan\u00e4le) aus?<\/strong><\/h3>\n\n\n\n<p>Wir haben einen Notfallplan f\u00fcr Contabo-Systeme (wie das Customer Control Panel oder die Support-Kan\u00e4le), und dieser wurde wie geplant aktiviert. Bevor wir auf alternative Standorte umschalten konnten, wurden die Systeme in N\u00fcrnberg allerdings bereits wiederhergestellt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-erkenntnisse-und-massnahmen\"><strong>Erkenntnisse und Ma\u00dfnahmen<\/strong><\/h2>\n\n\n\n<p>Erstens haben wir uns entschieden, alle Kunden aus N\u00fcrnberg in unser neu gebautes Hub Europa Rechenzentrum zu migrieren. Diese Anlage wurde so konzipiert, dass sie eine Verf\u00fcgbarkeit von 99,982% erreicht, wie sie f\u00fcr Tier-3-Rechenzentren erforderlich ist, und bietet robustere Sicherheitsmechanismen gegen Vorf\u00e4lle wie den oben beschriebenen. Der Migrationsprozess hat bereits begonnen, und betroffene Kunden werden direkt informiert.<\/p>\n\n\n\n<p>Zweitens werden wir unsere Notfallpl\u00e4ne und Fallback-Prozesse f\u00fcr Contabo-Systeme wie das Customer Control Panel und die Support-Kan\u00e4le \u00fcberarbeiten, um deren h\u00f6here Verf\u00fcgbarkeit auch bei Zwischenf\u00e4llen zu gew\u00e4hrleisten.<\/p>\n\n\n\n<p>Drittens werden wir unser Incident-Management \u00fcberarbeiten, um Vorf\u00e4lle schneller zu l\u00f6sen und unsere Kunden w\u00e4hrend solcher Ereignisse besser zu informieren. Wir wissen, dass unsere Partner auf uns z\u00e4hlen, und arbeiten aktiv daran, die deutsche Qualit\u00e4t zu verk\u00f6rpern, die uns ausmacht.<\/p>\n\n\n\n<p>Noch einmal danken wir unseren Kunden f\u00fcr ihre Geduld und ihr Verst\u00e4ndnis w\u00e4hrend dieses Vorfalls und versichern, dass wir uns daf\u00fcr einsetzen, \u00e4hnliche Probleme in Zukunft zu verhindern. Wir werden au\u00dferdem transparenter \u00fcber alle Ma\u00dfnahmen berichten, die wir ergreifen, um die Verf\u00fcgbarkeit eurer Server in allen unseren Rechenzentren weltweit zu sichern.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ein ausf\u00fchrlicher Bericht inklusive Zeitplan des Vorfalls, der Schritte, die wir unternommen haben, um ihn zu beheben, und der Ma\u00dfnahmen, die wir ergreifen, um in Zukunft besser darauf zu reagieren.<\/p>\n","protected":false},"author":35,"featured_media":20378,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[970],"tags":[1575,1574,1576],"ppma_author":[1506],"class_list":["post-20384","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-neuigkeiten","tag-cooling-2","tag-nuernberg-rechenzentrum-ausfall","tag-root-cause-analyse"],"uagb_featured_image_src":{"full":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1.jpg",1200,630,false],"thumbnail":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1-150x150.jpg",150,150,true],"medium":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1-600x315.jpg",600,315,true],"medium_large":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1-768x403.jpg",768,403,true],"large":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1.jpg",1200,630,false],"1536x1536":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1.jpg",1200,630,false],"2048x2048":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2024\/09\/blog-head_nue-rca-1.jpg",1200,630,false]},"uagb_author_info":{"display_name":"Aleksander Kuczek","author_link":"https:\/\/contabo.com\/blog\/de\/author\/alex\/"},"uagb_comment_info":0,"uagb_excerpt":"Ein ausf\u00fchrlicher Bericht inklusive Zeitplan des Vorfalls, der Schritte, die wir unternommen haben, um ihn zu beheben, und der Ma\u00dfnahmen, die wir ergreifen, um in Zukunft besser darauf zu reagieren.","authors":[{"term_id":1506,"user_id":35,"is_guest":0,"slug":"alex","display_name":"Aleksander Kuczek","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/e42b854d78e4fa976be9edf026a028573b55286622877e8adfe95e9ea3954c20?s=96&d=mm&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/20384","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/users\/35"}],"replies":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/comments?post=20384"}],"version-history":[{"count":3,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/20384\/revisions"}],"predecessor-version":[{"id":20394,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/20384\/revisions\/20394"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/media\/20378"}],"wp:attachment":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/media?parent=20384"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/categories?post=20384"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/tags?post=20384"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/ppma_author?post=20384"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}