Hallo Leute!
Diese Nacht hat Nagios mir eine Nachricht geschickt, die ich eigentlich nie sehen wollte, und zwar, dass der Status des Software-RAID auf einem Server CRITICAL ist:
CRITICAL md0 status=[_U].
In der SysLog sehe ich:
Oct 25 06:10:03 dailyorder kernel: [2149906.181276] ata1: link is slow to respond, please be patient (ready=0) Oct 25 06:10:08 dailyorder kernel: [2149911.030023] ata1: SRST failed (errno=-16) Oct 25 06:10:08 dailyorder kernel: [2149911.030226] ata1: soft resetting link Oct 25 06:10:13 dailyorder kernel: [2149916.230024] ata1: link is slow to respond, please be patient (ready=0) Oct 25 06:10:18 dailyorder kernel: [2149921.090023] ata1: SRST failed (errno=-16) Oct 25 06:10:18 dailyorder kernel: [2149921.090227] ata1: soft resetting link Oct 25 06:10:23 dailyorder kernel: [2149926.290033] ata1: link is slow to respond, please be patient (ready=0) Oct 25 06:10:53 dailyorder kernel: [2149956.110021] ata1: SRST failed (errno=-16) Oct 25 06:10:53 dailyorder kernel: [2149956.110228] ata1: soft resetting link Oct 25 06:10:58 dailyorder kernel: [2149961.130023] ata1: SRST failed (errno=-16) Oct 25 06:10:58 dailyorder kernel: [2149961.130226] ata1: reset failed, giving up Oct 25 06:10:58 dailyorder kernel: [2149961.130418] ata1.00: disabled Oct 25 06:10:58 dailyorder kernel: [2149961.130426] ata1.00: device reported invalid CHS sector 0 Oct 25 06:10:58 dailyorder kernel: [2149961.130446] ata1: EH complete Oct 25 06:10:58 dailyorder kernel: [2149961.130496] sd 0:0:0:0: [sda] Unhandled error code Oct 25 06:10:58 dailyorder kernel: [2149961.130501] sd 0:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Oct 25 06:10:58 dailyorder kernel: [2149961.130509] sd 0:0:0:0: [sda] CDB: Write(10): 2a 00 1d 1c 57 80 00 00 08 00 Oct 25 06:10:58 dailyorder kernel: [2149961.130529] end_request: I/O error, dev sda, sector 488396672 Oct 25 06:10:58 dailyorder kernel: [2149961.130793] end_request: I/O error, dev sda, sector 488396672 Oct 25 06:10:58 dailyorder kernel: [2149961.131048] md: super_written gets error=-5, uptodate=0 Oct 25 06:10:58 dailyorder kernel: [2149961.131056] raid1: Disk failure on sda1, disabling device. Oct 25 06:10:58 dailyorder kernel: [2149961.131059] raid1: Operation continuing on 1 devices. Oct 25 06:10:58 dailyorder kernel: [2149961.171351] RAID1 conf printout: Oct 25 06:10:58 dailyorder kernel: [2149961.171360] --- wd:1 rd:2 Oct 25 06:10:58 dailyorder kernel: [2149961.171367] disk 0, wo:1, o:0, dev:sda1 Oct 25 06:10:58 dailyorder kernel: [2149961.171374] disk 1, wo:0, o:1, dev:sdb1 Oct 25 06:10:58 dailyorder kernel: [2149961.211271] RAID1 conf printout: Oct 25 06:10:58 dailyorder kernel: [2149961.211277] --- wd:1 rd:2 Oct 25 06:10:58 dailyorder kernel: [2149961.211283] disk 1, wo:0, o:1, dev:sdb1 Oct 25 06:11:29 dailyorder kernel: [2149991.980053] ata2: lost interrupt (Status 0x51) Oct 25 06:11:29 dailyorder kernel: [2149991.980090] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Oct 25 06:11:29 dailyorder kernel: [2149991.980376] ata2.00: failed command: FLUSH CACHE EXT Oct 25 06:11:29 dailyorder kernel: [2149991.980606] ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0 Oct 25 06:11:29 dailyorder kernel: [2149991.980609] res 51/04:01:01:00:00/00:00:00:00:00/a0 Emask 0x1 (device error) Oct 25 06:11:29 dailyorder kernel: [2149991.981214] ata2.00: status: { DRDY ERR } Oct 25 06:11:29 dailyorder kernel: [2149991.981403] ata2.00: error: { ABRT } Oct 25 06:11:29 dailyorder kernel: [2149992.321590] ata2.00: configured for UDMA/133 Oct 25 06:11:29 dailyorder kernel: [2149992.321616] ata2: EH complete
Also, ich würde wirklich sagen, dass die erste Festplatte (/dev/sda) diese Welt verlassen hat. Sage ich richtig?
Ich würde dann den Provider anrufen und eine neue Festplatte bestellen, allerdings freue ich mich auf eure Kommentare über das Problem. Außerdem, da es bisher mir glücklicherweise nicht passiert ist, dass ich solches ein Problem habe, würde ich mich freuen wenn jemand, der schon Erfahrung hat, mir sagen kann, was ich machen soll, nachdem der Provider die Festplatte getauscht hat.
Danke Luca Bertoncello (lucabert@lucabert.de)
Am 25.10.2013 08:04, schrieb Luca Bertoncello:
Hallo Leute!
Diese Nacht hat Nagios mir eine Nachricht geschickt, die ich eigentlich nie sehen wollte, und zwar, dass der Status des Software-RAID auf einem Server CRITICAL ist:
CRITICAL md0 status=[_U].
In der SysLog sehe ich:
Also, ich würde wirklich sagen, dass die erste Festplatte (/dev/sda) diese Welt verlassen hat. Sage ich richtig?#
Das sieht zumindest mal nach Problemen mit sda aus, aber befrage erstmal: smartctl -a /dev/sda
Dann noch ein smartctl -t short /dev/sda (dauert 1-2 min)
Hinterher wieder mit -a die Ausgabe kontrollieren. Dia Ausgabe kannst du ja dann mal posten.
Evtl. ist das auch nur ein kaputter Block (current_pending_sector), auf den schreibend zugegriffen werden muß, damit er umgelagert wird (reallocated).
Wenn der Test wider erwarten ohne Fehler durchgelaufen ist, mit -t long wiederholen. Der läuft dann aber mehrere Stunden. Wie lange, sagt dir smartctl beim Start des Tests.
mit -x bekommst du noch mehr Informationen als mit -a.
Mit diesen Informationen kannst du am Besten beim Provider anklopfen.
Ich würde dann den Provider anrufen und eine neue Festplatte bestellen, allerdings freue ich mich auf eure Kommentare über das Problem. Außerdem, da es bisher mir glücklicherweise nicht passiert ist, dass ich solches ein Problem habe, würde ich mich freuen wenn jemand, der schon Erfahrung hat, mir sagen kann, was ich machen soll, nachdem der Provider die Festplatte getauscht hat.
Hatte ich schon mehrfach. Die Anleitung ist ganz verständlich: http://wiki.hetzner.de/index.php/Festplattenaustausch_im_Software-RAID
Gruß Rico
Hallo!
Am 25.10.2013 08:04, schrieb Luca Bertoncello:
Außerdem, da es bisher mir glücklicherweise nicht passiert ist, dass ich solches ein Problem habe, würde ich mich freuen wenn jemand, der schon Erfahrung hat, mir sagen kann, was ich machen soll, nachdem der Provider die Festplatte getauscht hat.
Falls du es noch nicht getan hast, installiere jetzt noch schnell deinen Boot-Loader auf die noch intakte Platte.
Nach dem Tausch natürlich auch bei der neuen Platte dran denken.
Viele Grüße! morphium
lug-dd@mailman.schlittermann.de