Moin Leute!
Letzte Woche gab es ein kleines Problem bei mir zu Hause und ein Vollidiot (ich kenne kein Wort, was noch besser den Kerl definieren kann), hat mit Gewalt meine ganze Technik ausgeschaltet. Da ich im Urlaub war, konnte ich leider auch nichts dagegen tun...
Egal, Fakt ist, dass seitdem (ich bin heute wieder zu Hause), meldet sich SMART so:
SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Interrupted (host reset) 90% 7053 - # 2 Extended offline Interrupted (host reset) 90% 7030 - # 3 Short offline Interrupted (host reset) 90% 7029 - ...
Und in dmesg sehe ich folgendes (jeden Tag, bei der Zeit, wann die Prüfung gemacht wird):
[So Aug 4 02:10:49 2024] ata1.00: exception Emask 0x0 SAct 0x1f80000 SErr 0x0 action 0x6 frozen [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/18:98:80:cd:10/00:00:07:00:00/40 tag 19 ncq dma 12288 out res 40/00:01:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[So Aug 4 02:10:49 2024] ata1.00: status: { DRDY } [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/08:a0:b8:cd:10/00:00:07:00:00/40 tag 20 ncq dma 4096 out res 40/00:01:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[So Aug 4 02:10:49 2024] ata1.00: status: { DRDY } [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/08:a8:e8:cd:10/00:00:07:00:00/40 tag 21 ncq dma 4096 out res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[So Aug 4 02:10:49 2024] ata1.00: status: { DRDY } [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/08:b0:18:ce:10/00:00:07:00:00/40 tag 22 ncq dma 4096 out res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[So Aug 4 02:10:49 2024] ata1.00: status: { DRDY } [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/08:b8:38:ce:10/00:00:07:00:00/40 tag 23 ncq dma 4096 out res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[So Aug 4 02:10:49 2024] ata1.00: status: { DRDY } [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/08:c0:58:ce:10/00:00:07:00:00/40 tag 24 ncq dma 4096 out res 40/00:01:06:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[So Aug 4 02:10:49 2024] ata1.00: status: { DRDY } [So Aug 4 02:10:49 2024] ata1: hard resetting link [So Aug 4 02:10:50 2024] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) [So Aug 4 02:10:50 2024] ata1.00: configured for UDMA/133 [So Aug 4 02:10:50 2024] ata1: EH complete
Nun würde ich mich auf eure Meinung freuen... Ist die Festplatte gleich "mülltonnenbereit" oder ist was, das per Software zu reparieren ist? Ich tendiere das erste, freue mich aber auf eure Meinung.
Viele Grüße Luca Bertoncello (lucabert@lucabert.de)
Hi,
Am Sonntag, dem 04.08.2024 um 18:23 +0200 schrieb Luca Bertoncello:
Letzte Woche gab es ein kleines Problem bei mir zu Hause und ein Vollidiot (ich kenne kein Wort, was noch besser den Kerl definieren kann), hat mit Gewalt meine ganze Technik ausgeschaltet. Da ich im Urlaub war, konnte ich leider auch nichts dagegen tun...
Egal, Fakt ist, dass seitdem (ich bin heute wieder zu Hause), meldet sich SMART so:
SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Interrupted (host reset) 90% 7053 - # 2 Extended offline Interrupted (host reset) 90% 7030 - # 3 Short offline Interrupted (host reset) 90% 7029 - ...
Das ist leider nicht aussagekräftig, um etwas zum Zustand der Platte zu sagen. Bitte poste die kompletten SMART-Daten.
Und in dmesg sehe ich folgendes (jeden Tag, bei der Zeit, wann die Prüfung gemacht wird):
[So Aug 4 02:10:49 2024] ata1.00: exception Emask 0x0 SAct 0x1f80000 SErr 0x0 action 0x6 frozen [So Aug 4 02:10:49 2024] ata1.00: failed command: WRITE FPDMA QUEUED [So Aug 4 02:10:49 2024] ata1.00: cmd 61/18:98:80:cd:10/00:00:07:00:00/40 tag 19 ncq dma 12288 out res 40/00:01:01:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Ggf.: https://www.thomas-krenn.com/de/wiki/SATA_exception_Emask_0x0_SAct_0x80_SErr...
Auch mal im BIOS nachschauen, was für den Controller eingestellt ist (AHCI, IDE, o.ä.).
Grundsätzlich scheint der Fehler nicht auf eine sterbende Platte hinzuweisen, sondern eher auf ein Konfigurationsproblem.
VG Daniel
Am 04.08.2024 um 22:10 schrieb Daniel Leidert:
Moin!
Das ist leider nicht aussagekräftig, um etwas zum Zustand der Platte zu sagen. Bitte poste die kompletten SMART-Daten.
root@saphir:~# smartctl -a /dev/sda smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-31-amd64] (local build) Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION === Device Model: Intenso SSD Sata �� Serial Number: SH202306250413 Firmware Version: W0110A0 User Capacity: 256.060.514.304 bytes [256 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches TRIM Command: Available Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-2 T13/2015-D revision 3 SATA Version is: SATA 3.2, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Mon Aug 5 08:06:53 2024 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled
=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED
General SMART Values: Offline data collection status: (0x03) Offline data collection activity is in progress. Auto Offline Data Collection: Disabled. Self-test execution status: ( 37) The self-test routine was interrupted by the host with a hard or soft reset. Total time to complete Offline data collection: ( 120) seconds. Offline data collection capabilities: (0x11) SMART execute Offline immediate. No Auto Offline data collection support. Suspend Offline collection upon new command. No Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. No Selective Self-test supported. SMART capabilities: (0x0002) Does not save SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 10) minutes. SCT capabilities: (0x0001) SCT Status supported.
SMART Attributes Data Structure revision number: 1 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x0032 100 100 050 Old_age Always - 0 5 Reallocated_Sector_Ct 0x0032 100 100 050 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 050 Old_age Always - 7083 12 Power_Cycle_Count 0x0032 100 100 050 Old_age Always - 7 160 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 0 161 Unknown_Attribute 0x0033 100 100 050 Pre-fail Always - 100 163 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 26 164 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 81539 165 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 302 166 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 1 167 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 52 168 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 5050 169 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 99 175 Program_Fail_Count_Chip 0x0032 100 100 050 Old_age Always - 0 176 Erase_Fail_Count_Chip 0x0032 100 100 050 Old_age Always - 0 177 Wear_Leveling_Count 0x0032 100 100 050 Old_age Always - 0 178 Used_Rsvd_Blk_Cnt_Chip 0x0032 100 100 050 Old_age Always - 0 181 Program_Fail_Cnt_Total 0x0032 100 100 050 Old_age Always - 0 182 Erase_Fail_Count_Total 0x0032 100 100 050 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Always - 6 194 Temperature_Celsius 0x0022 100 100 050 Old_age Always - 45 195 Hardware_ECC_Recovered 0x0032 100 100 050 Old_age Always - 0 196 Reallocated_Event_Count 0x0032 100 100 050 Old_age Always - 0 197 Current_Pending_Sector 0x0032 100 100 050 Old_age Always - 0 198 Offline_Uncorrectable 0x0032 100 100 050 Old_age Always - 0 199 UDMA_CRC_Error_Count 0x0032 100 100 050 Old_age Always - 0 232 Available_Reservd_Space 0x0032 100 100 050 Old_age Always - 100 241 Total_LBAs_Written 0x0030 100 100 050 Old_age Offline - 201703 242 Total_LBAs_Read 0x0030 100 100 050 Old_age Offline - 17141 245 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 106911
SMART Error Log Version: 1 No Errors Logged
SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Interrupted (host reset) 50% 7083 - # 2 Short offline Interrupted (host reset) 90% 7077 - # 3 Short offline Interrupted (host reset) 90% 7053 - # 4 Extended offline Interrupted (host reset) 90% 7030 - # 5 Short offline Interrupted (host reset) 90% 7029 - # 6 Short offline Interrupted (host reset) 90% 7005 - # 7 Short offline Interrupted (host reset) 90% 6982 - # 8 Short offline Interrupted (host reset) 90% 6957 - # 9 Short offline Completed without error 00% 6933 - #10 Short offline Completed without error 00% 6909 - #11 Short offline Interrupted (host reset) 90% 6886 - #12 Extended offline Interrupted (host reset) 90% 6863 - #13 Short offline Interrupted (host reset) 90% 6862 - #14 Short offline Interrupted (host reset) 90% 6838 - #15 Short offline Completed without error 00% 6817 - #16 Short offline Completed without error 00% 6793 - #17 Short offline Completed without error 00% 6769 - #18 Short offline Completed without error 00% 6745 - #19 Short offline Completed without error 00% 6721 - #20 Extended offline Completed without error 00% 6698 - #21 Short offline Completed without error 00% 6697 -
Selective Self-tests/Logging not supported
Eine wichtige Information: das Problem kommt erst seit etwas eine Woche, als ein Idiot den Server bei Kabel trennen brutal ausgeschaltet hat. Vorher gab es keine Probleme
Ggf.: https://www.thomas-krenn.com/de/wiki/SATA_exception_Emask_0x0_SAct_0x80_SErr...
Ich habe weder Ubuntu 20.04 noch einen Supermicro Server...
Grundsätzlich scheint der Fehler nicht auf eine sterbende Platte hinzuweisen, sondern eher auf ein Konfigurationsproblem.
Wenigstens das... Aber wie kann ein Konfigurationsfehler fast ein Jahr nach der Einbau der Festplatte passieren, wenn an der Konfiguration der SSD gar nichts geändert wurde?
Danke Luca Bertoncello (lucabert@lucabert.de)
lug-dd@mailman.schlittermann.de