Bericht zum Zwischenfall im Rechenzentrum und Voice Server Ausfall
- Steffen Kolb
- 0 Kommentare
- 1.420 Mal gelesen
Am Montag den 26.09.2011 zeigte gegen 15.00 Uhr unser Server Monitoring einen Ausfall auf unserem QSO4YOU Hauptserver. Unser erster Gedanke war, ein abgeschmiertes Windows auf dem Server. Der Verdacht bestätigte sich allerdings nicht, da wir auch feststellen mussten, dass unser Forum äußerst träge reagiert.
Die Voice Server und die Web- und Mailserver sind nicht die selben, daher kam die ganze Situation, den zu diesem Zeitpunkt zuständigen Admin, etwas komisch vor. Ratlos haben wir dann bei dem Rechenzentrumbetreiber angerufen oder es zumindest versucht, da sich die Serverhardware auch nicht mehr neustarten ließ. Ein durchkommen bei der Hotline war unmöglich, auch unseren persönlichen Kundenberater konnten wir nicht erreichen.
In diesem Fall blieb uns nichts anderes übrig als eine Ankündigung auf die Webseite zu schreiben und abzuwarten. Wir haben uns dann erst mal im Forum unseres RZ-Betreibers schlau gemacht und siehe da, wir waren nicht die einzigen. Tausende Kunden tummelten sich nach dem Ausfall im Forum des RZ-Betreibers. Eine Reaktion von Seitens des Betreiber war zu diesem Zeitpunkt noch nicht online. Als die Situation ausweglos war, gab dieser bekannt das es wohl seit einem Software Update einige Probleme mit dem internen Routing gäbe. Ab 17.30 Uhr waren die Server von uns wie von Geisterhand wieder am Netz. Wir waren zufrieden ahnten aber nicht, dass der Spuck noch immer kein Ende gefunden hatte.
Gegen 20.00 Uhr meldete sich das Monitoring wieder bei uns das auf dem Hauptserver die Verbindung ausgefallen sei und der Server keinen Heartbeat mehr sendet. Der RZ-Betreiber meldete auch diesen Vorfall erst nach einigen Minuten ca. 30 – 45 Minuten über Facebook und Twitter. Natürlich versuchten wir euch dann auch gleich so schnell wie möglich über diese Netze zu informieren. Doch wie soll das gehen? ohne Informationen? Ab 23.00 Uhr ging dann unser Server wieder ans Netz.
Schuld an der ganzen Misere war ein überlasteter Sybase-Datenbank-Server, der eine hohe Last verzeichnete und dadurch die Netzwerkeinstellungen umkonfigurierte. Die Netzwerkeinstellungen werden dann komplett überschrieben und Datenpakete können nicht korrekt übermittelt werden. Währenddessen war auch eine Konfiguration der Netzwerkdienste nicht möglich. Der RZ-Betreiber verspricht Besserung und setzt auf Prüfmechanismen die einen solchen Super Gau, beim nächsten Mal verhindern sollen.
Wir von QSO4YOU haben uns nach diesem Zwischenfall auch so unsere Gedanken gemacht und werden über weitere Sicherheitsmaßnahmen nachdenken. Die Leittragenden seit natürlich mal wieder ihr deshalb entschuldigen wir uns bei euch natürlich auch im Namen unseres RZ-Betreibers der die ganze Sache ja schließlich verbockt hat.
Bildquelle: serverroom von reynermedia (Lizenz CC BY 2.0)