Festplattenausfall im Software RAID1

Normalerweise läuft der Server unauffällig im Hintergrund und als Hobby Admin schaut man auch nicht täglich in die Logs, Ausfälle und Probleme muss er also schon selbst mitteilen.

Die etwas ältere Hardware des guten Stücks legt ihre Daten auf zwei Magnetplatten ab, die im Software RAID1 laufen. Einer der beiden Platten hatte schon fast 38.000 Betriebsstunden auf der Uhr.

So meldete also Netdata gegen 13:57Uhr einen erhöhten Wert bei disk.backlog – also die Zeit die I/O Anforderungen des Systems brauchen um durch die Festplatte umgesetzt zu werden, aber nur für die zweite Platte.

Normal wäre für beide Platten aber das kommt nur bei DOS Angriffen oder in der Prüfungszeit vor, wenn alle Studis die Unterlagen aus der Owncloud gleichzeitig brauchen und der Cache nicht mehr alles bereithalten kann 🙂

Wenige Minuten später folgten Warnungen zu cpu.iowait – also die Zeit die der Prozessor auf Daten von der Festplatte wartet und für disk.utilization also die Auslastung der Festplatte. Zu dieser Zeit wechselte der Serverstatus der Webseiten im Uptimerobot auch schon auf Offline.

Der Raidstatus zeigte keine Auffälligkeiten ( cat /proc/mdstat) – beide Platten noch synchron.

Der Smartstatus sah auch nicht schlecht aus  ( smartctl -x /dev/sdb ) – allerdings war der letzte offline test auch schon ein paar tausend stunden her.
Anschieben mit: smartctl -test=long /dev/sdb
Das dauert dann erstmal ein paar Stunden.

In der Nacht folgten diverse Fehlermeldungen von smartd – dem Warndienst wenn SMART Werte nicht in Ordnung sind. Darunter einer zu CurrentPendingSector – was in etwa bedeutet, dass die Festplatte defekte Sektoren nicht „verschieben“ kann. Damit is spätestens klar: da muss eine neue rein.

Kaum 18Minuten nach Absenden des Tickets im Supportsystem war auch schon die neue Platte drin, das nenne ich mal flotten Service – danke liebes Support Team!

Nun ruckelts noch ein paar Stunden lang bis die beiden Festplatten wieder synchron sind, danach sollte alles wieder soweit laufen.