{"id":22510,"date":"2025-03-14T13:00:00","date_gmt":"2025-03-14T12:00:00","guid":{"rendered":"https:\/\/contabo.com\/blog\/wie-wir-die-serverprobleme-von-2024-geloest-haben-ein-blick-hinter-die-kulissen\/"},"modified":"2025-03-30T19:11:00","modified_gmt":"2025-03-30T17:11:00","slug":"zram-wie-wir-die-serverprobleme-von-2024-geloest-haben","status":"publish","type":"post","link":"https:\/\/contabo.com\/blog\/de\/zram-wie-wir-die-serverprobleme-von-2024-geloest-haben\/","title":{"rendered":"Wie wir die Serverprobleme von 2024 gel\u00f6st haben (Ein Blick hinter die Kulissen)"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1200\" height=\"630\" src=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1.jpg\" alt=\"ZRAM - Titelbild\" class=\"wp-image-21614\" srcset=\"https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1.jpg 1200w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1-600x315.jpg 600w, https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1-768x403.jpg 768w\" sizes=\"auto, (max-width: 1200px) 100vw, 1200px\" \/><\/figure>\n\n\n\n<p>Ist dir aufgefallen, dass unsere Server Ende 2024 \u00f6fters Probleme hatten? Uns auch! Die Server blieben gelegentlich stehen, manchmal erwachten sie von selbst wieder zum Leben und manchmal musste ein Neustart durchgef\u00fchrt werden, um sie wiederherzustellen. Das Seltsame daran? Unsere \u00dcberwachung ergab keine offensichtliche Ursache f\u00fcr diese Aussetzer.<\/p>\n\n\n\n<p>Typische Serverprobleme haben naheliegende Ursachen &#8211; eine problematische Kundenanwendung, fehlerhafte Netzwerk- oder Virtualisierungseinstellungen oder Hardwareprobleme. Diesmal war es anders. Die \u00fcblichen Diagnoseschritte ergaben keinen eindeutigen Hinweis auf die Grundursache. Gleichzeitig verschlechterte sich die Stabilit\u00e4t unserer Infrastruktur immer weiter.<\/p>\n\n\n\n<p>Wir erkannten, dass wir mehr als nur routinem\u00e4\u00dfige Fehlerbehebung ben\u00f6tigten. Wir haben eine spezialisierte Arbeitsgruppe zusammengestellt, die nicht nur unsere eigenen Experten, sondern auch externe Kernel-Entwickler und Spezialisten von Software-Anbietern wie Virtuozzo einbezog. Wenn die \u00fcblichen L\u00f6sungsans\u00e4tze nicht richtig sind, m\u00fcssen wir tiefer graben &#8211; viel tiefer.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-auf-der-suche-nach-antworten\">Auf der Suche nach Antworten <\/h2>\n\n\n\n<p>Einige technische Probleme k\u00fcndigen sich laut an. Andere, wie dieses, halten sich im Verborgenen. Unsere Arbeitsgruppe begann damit, alle m\u00f6glichen Aspekte zu untersuchen &#8211; verschiedene Hardwaremarken, verschiedene Rechenzentren, Benutzerprofile, Arbeitslasten. Nichts schien auf einen klaren \u00dcbelt\u00e4ter hinzuweisen.<\/p>\n\n\n\n<p>Etwa 20 % unserer Supportanfragen betrafen Probleme mit der Serverkonfiguration, eine Zahl, die unsere Aufmerksamkeit erregte. Normalerweise zeigen Konfigurationsprobleme klare Muster. Aber diese Tickets beschrieben verschiedene Symptome, die zum gleichen Ergebnis f\u00fchrten: nicht reagierende Server, die Neustarts ben\u00f6tigten.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-theorien-prufen\">Theorien pr\u00fcfen <\/h3>\n\n\n\n<p>Wir pr\u00fcften Hypothesen \u00fcber Hardware. K\u00f6nnte es spezifisch f\u00fcr bestimmte Servermarken sein? Die Probleme traten sowohl bei Lenovo-, Dell- als auch HPE-Systemen auf und hatten auch nichts mit Festplattenproblemen zu tun. Vielleicht besondere Standorte von Rechenzentren? Kein Muster dort. Wir betrachteten verschiedene Versionen von Betriebssystemen und Virtualisierungssoftware, aber es gab auch keinen klaren Grund. Selbst als wir analysierten, wie unterschiedliche Kunden ihre Server nutzten, konnten wir keine bedeutenden Muster erkennen.<\/p>\n\n\n\n<p>Der erste Durchbruch kam, als wir die Proxmox- und die verwendete Linux-Kernelversion auf unseren Vhost-Servern \u00e4nderten. Die Stabilit\u00e4t verbesserte sich insgesamt, aber jetzt begannen die Server, v\u00f6llig andere Leistungsprobleme zu haben. Unsere Taskforce grub weiter und untersuchte die Muster des Speichermanagements. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-speichermanagement-verstehen\">Speichermanagement verstehen <\/h2>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-der-speicher-tanz\">Der Speicher-Tanz <\/h3>\n\n\n\n<p>Bevor wir mit unserer Geschichte fortfahren, lasst uns erkl\u00e4ren, was Speichermanagement ist.<\/p>\n\n\n\n<p>In Produktionsumgebungen ist das Speichermanagement ein sorgf\u00e4ltiger Balanceakt. Die CPU vollf\u00fchrt st\u00e4ndig einen komplexen Tanz, indem sie Daten zwischen RAM und Swap verschiebt. Aktive Anwendungen bleiben im schnellen RAM, w\u00e4hrend inaktive anhand von Nutzungsmustern in den langsameren Swap-Speicher verschoben werden. <\/p>\n\n\n\n<p>Diese Koordination passiert tausende Male pro Sekunde, normalerweise ohne dass es jemand bemerkt. Es ist ein branchen\u00fcblicher Standard, der seit Jahrzehnten im Cloud-Computing verwendet wird. Dieser RAM-plus-Swap-Ansatz eignet sich f\u00fcr alles, von kleinen WordPress-Sites bis hin zu umfangreichen Datenbanken und dar\u00fcber hinaus. <\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-das-zram-versprechen\">Das ZRAM-Versprechen <\/h3>\n\n\n\n<p>Hier kommt ZRAM ins Spiel &#8211; eine Standardfunktion des Linux-Kernels, die die Speicherverwaltung noch effizienter machen soll. Durch die Komprimierung der Daten direkt im RAM bietet er 25% mehr Kapazit\u00e4t. Stell dir das so vor: W\u00e4hrend Swap verwendet wird, um weniger genutzte Daten au\u00dferhalb des RAM zu halten, komprimiert ZRAM die Daten, um mehr davon im RAM zu halten. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-den-wahren-ubeltater-aufspuren\">Den wahren \u00dcbelt\u00e4ter aufsp\u00fcren <\/h2>\n\n\n\n<p>Jetzt, da wir etwas Kontext haben, kehren wir zu unserer Untersuchung zur\u00fcck. Im Laufe der Zeit, w\u00e4hrend wir einige Stabilit\u00e4tsprobleme durch Systemupdates behoben, f\u00fchrten wir ZRAM in unserer Infrastruktur ein. Zun\u00e4chst schien alles in Ordnung zu sein. Dann begannen unsere \u00dcberwachungstools, ungew\u00f6hnliche Muster in den Eingabe-\/Ausgabeoperationen zu erfassen. <\/p>\n\n\n\n<p>Das Problem war nicht sofort erkennbar. Die Server liefen bis zu einer bestimmten Speicherkonstellation normal. Der kritische Moment kam, als Systeme volle Kapazit\u00e4t erreichten und sowohl ZRAM als auch Swap-Speicher gleichzeitig handhaben mussten. Wir stellten fest, dass physisches RAM mit Swap gut funktionierte, ebenso wie physisches RAM mit ZRAM. Wenn jedoch sowohl die Komprimierung als auch die Auslagerung aktiviert waren, trat das Server-Einfrieren-Problem auf. <\/p>\n\n\n\n<p>Unsere Debug-Protokolle und Datenausgaben enth\u00fcllten die ganze Geschichte. Das Debugging auf Kernel-Ebene zeigte, dass die \u00dcbergabe zwischen RAM (komprimiert mit ZRAM) und Swap, wenn beide Kapazit\u00e4t erreichten, nicht korrekt funktionierte. Anstatt Daten reibungslos zwischen komprimiertem RAM und Swap-Speicher zu verschieben, froren die Systeme vollst\u00e4ndig ein. Die Latenzmuster in unseren Debug-Ausgaben deuteten auf ein grundlegendes Problem mit diesem Ansatz des Speichermanagements hin. <\/p>\n\n\n\n<p>Bis Dezember 2024 hatten wir genug Beweise, um einen entscheidenden Schritt zu machen. Wir deaktivierten ZRAM in allen Systemen. Die Auswirkungen waren sofort und klar: die mysteri\u00f6sen Eingabe-\/Ausgabe-Probleme verschwanden. Noch wichtiger ist, dass die mysteri\u00f6sen Systemeinfrierungen, die unsere Kunden und uns selbst frustriert hatten, drastisch zur\u00fcckgingen. <\/p>\n\n\n\n<p>Mission erf\u00fcllt. <\/p>\n\n\n\n<p>Wir hoffen, dass die Erkenntnisse, die wir \u00fcber das Verhalten von ZRAM gewonnen haben, anderen Anbietern, die vor \u00e4hnlichen Herausforderungen stehen, helfen k\u00f6nnen. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-ausblick\">Ausblick <\/h2>\n\n\n\n<p>Die Aufrechterhaltung der Systemstabilit\u00e4t der Serverinfrastruktur ist eine kontinuierliche Aufgabe. Die Deaktivierung von ZRAM hat zwar die Leistungseinbu\u00dfen im Jahr 2024 behoben, aber wir suchen weiter nach anderen M\u00f6glichkeiten, um eine noch stabilere Umgebung zu schaffen. Wir verbessern auch unsere Infrastruktur: Wir r\u00fcsten unsere Hosts-Flotte auf neue AMD Turin-Prozessoren auf, die neuesten CPUs, die eine noch effizientere Speicherverwaltung bieten. <\/p>\n\n\n\n<p>Wir k\u00f6nnen Ihnen zwar nicht versprechen, dass es nie zu Ausfallzeiten kommen wird, aber wir k\u00f6nnen Ihnen versprechen, dass wir uns st\u00e4ndig optimieren und verbessern, damit Ihre Workloads rund um die Uhr an 365 Tagen im Jahr reibungslos laufen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Als unsere Server Ende 2024 ohne ersichtlichen Grund anfingen, einzufrieren, stellten wir eine spezielle Arbeitsgruppe zusammen, um dies zu untersuchen. Nachdem wir Hardware, Standort und Arbeitslastmuster ausgeschlossen hatten, entdeckten wir den Schuldigen: eine unerwartete Wechselwirkung zwischen ZRAM-Kompression und Swap-Speicher, die unter bestimmten Speicherbedingungen zu systemweiten Aussetzern f\u00fchrte.<\/p>\n","protected":false},"author":50,"featured_media":21615,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[970],"tags":[2005,1996,2001,1995,1997,2000,1998,2007,1999,2002,2006,2004,2003],"ppma_author":[1491,1492],"class_list":["post-22510","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-neuigkeiten","tag-data-center-management-de","tag-fehlerbehebung","tag-linux-kernel-de","tag-proxmox-de","tag-serverleistung","tag-serverprobleme","tag-serverstabilitaet","tag-serverwartung","tag-speicherverwaltung","tag-swap-speicher","tag-systemoptimierung","tag-technische-untersuchung","tag-zram-de"],"uagb_featured_image_src":{"full":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1.jpg",1200,630,false],"thumbnail":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1-150x150.jpg",150,150,true],"medium":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1-600x315.jpg",600,315,true],"medium_large":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1-768x403.jpg",768,403,true],"large":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1.jpg",1200,630,false],"1536x1536":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1.jpg",1200,630,false],"2048x2048":["https:\/\/contabo.com\/blog\/wp-content\/uploads\/2025\/03\/blog-head_zram-1.jpg",1200,630,false]},"uagb_author_info":{"display_name":"Tobias Mildenberger","author_link":"https:\/\/contabo.com\/blog\/de\/author\/tobias\/"},"uagb_comment_info":0,"uagb_excerpt":"Als unsere Server Ende 2024 ohne ersichtlichen Grund anfingen, einzufrieren, stellten wir eine spezielle Arbeitsgruppe zusammen, um dies zu untersuchen. Nachdem wir Hardware, Standort und Arbeitslastmuster ausgeschlossen hatten, entdeckten wir den Schuldigen: eine unerwartete Wechselwirkung zwischen ZRAM-Kompression und Swap-Speicher, die unter bestimmten Speicherbedingungen zu systemweiten Aussetzern f\u00fchrte.","authors":[{"term_id":1491,"user_id":50,"is_guest":0,"slug":"tobias","display_name":"Tobias Mildenberger","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/077178d5dce6c3d4c0c0396857a7e544bfdf8adf04145fff5160b33a22e28b1f?s=96&d=mm&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""},{"term_id":1492,"user_id":63,"is_guest":0,"slug":"christophercarter","display_name":"Christopher Carter","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/63db81672a5ce4c1e8ee39753d00251d561b5b3a9967febf1c4f662024cef00f?s=96&d=mm&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/22510","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/users\/50"}],"replies":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/comments?post=22510"}],"version-history":[{"count":3,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/22510\/revisions"}],"predecessor-version":[{"id":22514,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/posts\/22510\/revisions\/22514"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/media\/21615"}],"wp:attachment":[{"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/media?parent=22510"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/categories?post=22510"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/tags?post=22510"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/contabo.com\/blog\/de\/wp-json\/wp\/v2\/ppma_author?post=22510"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}