Jan Losinski schrieb:
Hi,
- Rico Koerner rico.koerner@heico.net [2008-06-19 10:53]:
[...] irq 7: nobody cared (try booting with the "irqpoll" option)
"irqpoll" willst du nicht wirklich ;)
Nein, nicht wirklich, aber getestet hab ichs mal. ;-)
[...] handlers: [<ffffffff80374fb6>] (usb_hcd_irq+0x0/0x55) Disabling IRQ #7
Womit dein USB Port warscheinlich ins leere ruft.
auch wenn ich nicht verstehe, was mir diese Zeile sagen will, aber ich nehm das mal so hin.
Booten mit der Option irqpoll funktioniert nicht.
Und wenn würdest du keinen Spaß damit haben, da irqs ja gerade dazu da sind polling zu vermeiden.
Und Polling nur dazu da ist, wenn es sonst mit einem irq-sharing nicht klappt, wenn ich das richtig verstanden habe. Aber dort ist ja nur ein Kernelmodul/Gerät oder was auch immer drauf, noch dazu ein unbenutzes USB-*.
Der Kernel ist weiterhin mit der Option noapic gestartet, ohne geht es nicht, also weder die eine noch die andere Option einzeln als auch zusammen. Der Kernel ist ein 2.6.18-6-amd64.
Einmal eine etwas neuere (>=2.6.22) ausprobiert? Ich hatte (von der 2.6.12) bis zur 2.6.24 immer Fehler "APIC error on CPU0: 40 (40)" wenn mein Rechner was zu tun hatte, das hat sich mit der .24 gegeben.
Nein, hatte ich auch nicht unbedingt vor. Ich wollte mit dem leben, was mir etch bietet.
/proc/interrupts zeigt bei irq 7 vor und nach der Meldung nur auf ehci_hcd:usb2 Die Zählerstände für CPU0 und 1 erhöhen sich hier weiterhin kontinuierlich.
Was ist das für ein Controller? Was sagt lspci/lsusb, ist der ehci-treiber geladen, stehen zu dem irgendwelche Meldungen im Log?
lspci sagt diesbezüglich: 00:0b.0 USB Controller: nVidia Corporation MCP51 USB Controller (rev a3) 00:0b.1 USB Controller: nVidia Corporation MCP51 USB Controller (rev a3)
lsusb: Bus 005 Device 001: ID 0000:0000 Bus 001 Device 001: ID 0000:0000 Bus 004 Device 001: ID 0000:0000 Bus 003 Device 001: ID 0000:0000 Bus 002 Device 001: ID 0000:0000
Auf irq 11 ist noch ein ohci_hcd:usb1 bei dem die CPU-Zähler auf 0 stehen.
Na das Problem scheind ja der EHCI auf 7 zu sein.
Ja, ich habs nur erwähnt, weil ebenfalls USB aber andererseits nicht ehci sondern ohci. Hab mich grad mal informiert, was die Unterschiede sind (OHCI=USB1.0, EHCI=USB2.0). Im BIOS kann ich kein USB, 1.1 allein oder 1.1+2.0 einstellen, letzteres ist aktuell der Fall. Allerdings geht es hier wohl eher um die Protokollunterstützung, nicht um verschiedene Ports oder Controller. Außerdem noch der USB BIOS Legacy Support, der allerdings nichts beeinflußt.
Ich hab soeben mal den USB2.0-Support im BIOS abgeschaltet, jetzt ist auf dem irq 7 ein zweites libata aktiv, das bisher nur auf irq 5. Anscheinend haben sich auch einige andere irq anders verteilt, denn auf der 11 ist zum ohci noch eth0 gekommen, das vorher mit einem anderen Gerät zusammenlag. EHCI ist jetzt verständlicherweise nicht mehr mit in der Liste.
# lsusb Bus 001 Device 001: ID 0000:0000
ist entsprechend knapper. Die Ausgabe von lspci wegen Zeilenumbruch in der Mail in den Anhang verlegt.
Nach einigen Minuten mußte ich erstaunt feststellen, daß die Fehlermeldung irq 7 disabled weiterhin erscheint und jetzt auf ein Problem mit SATA hinweisen (siehe kern.log-Auszug im Anhang). Am USB lags damit wohl nicht.
Da mir hier die sda-Platte rausfliegt, betrifft es den SATA0-Controller im BIOS. Dort kann ich von "native" auf "compatible" umschalten. Das hat dann zur Folge, daß die Interrupttabelle neu gemischt wird, nur noch ein libata auftaucht, allerdings wieder auf irq 7, irq 5 ist jetzt unbenutzt. Dafür tauchen ide0 und ide1 auf und fdisk zeigt mir jetzt eine der Platten als hda und die andere als sda, da sie auf beide Controller verteilt waren. Das war auch nicht das gewünschte Ergebnis.
Der irq 7 Fehler inkl. SATA-Fehlermeldungen tritt weiterhin auf, immer noch in Bezug auf sda. Nach meiner Theorie müßte doch vorher der 1. SATA-Controller sda und der 2. sdb zur Verfügung gestellt haben. Wenn der 1. jetzt im Kompatibilitätsmodus als ide -> hda autaucht, müßte doch der 2. Controller jetzt sda zur Verfügung stellen, die vorher sdb war? Jetzt ist natürlich die sda-Platte rausgeflogen und das System vollkommen gecrasht. Na zum Glück ist der Server noch nicht im Produktiveinsatz.
Ich vermute das Problem langsam beim sata-Treiber.
Ich hoffe die neuen Erkenntnisse bringen etwas Licht ins dunkel.
Im besten Fall geht dein EHCI USB-Port nicht, weil der Treiber net funktioniert. Im schlimmsten Fall hat sich irgendwas auf deiner Hardware verabschiedet.
Das ist ein neuer Server (Siemens Primergy Econel EC130S1) mit einem nvidia MCP51 Chipsatz. Dann wäre es wohl ein Garantiefall.
Gruß Rico
00:00.0 RAM memory: nVidia Corporation C51 Host Bridge (rev a2) 00:00.1 RAM memory: nVidia Corporation C51 Memory Controller 0 (rev a2) 00:00.2 RAM memory: nVidia Corporation C51 Memory Controller 1 (rev a2) 00:00.3 RAM memory: nVidia Corporation C51 Memory Controller 5 (rev a2) 00:00.4 RAM memory: nVidia Corporation C51 Memory Controller 4 (rev a2) 00:00.5 RAM memory: nVidia Corporation C51 Host Bridge (rev a2) 00:00.6 RAM memory: nVidia Corporation C51 Memory Controller 3 (rev a2) 00:00.7 RAM memory: nVidia Corporation C51 Memory Controller 2 (rev a2) 00:02.0 PCI bridge: nVidia Corporation C51 PCI Express Bridge (rev a1) 00:03.0 PCI bridge: nVidia Corporation C51 PCI Express Bridge (rev a1) 00:05.0 VGA compatible controller: nVidia Corporation C51 PCI Express Bridge (rev a2) 00:09.0 RAM memory: nVidia Corporation MCP51 Host Bridge (rev a2) 00:0a.0 ISA bridge: nVidia Corporation MCP51 LPC Bridge (rev a3) 00:0a.1 SMBus: nVidia Corporation MCP51 SMBus (rev a3) 00:0b.0 USB Controller: nVidia Corporation MCP51 USB Controller (rev a3) 00:0d.0 IDE interface: nVidia Corporation MCP51 IDE (rev f1) 00:0e.0 IDE interface: nVidia Corporation MCP51 Serial ATA Controller (rev f1) 00:0f.0 IDE interface: nVidia Corporation MCP51 Serial ATA Controller (rev f1) 00:10.0 PCI bridge: nVidia Corporation MCP51 PCI Bridge (rev a2) 00:14.0 Ethernet controller: nVidia Corporation MCP51 Ethernet Controller (rev a3) 00:18.0 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] HyperTransport Technology Configuration 00:18.1 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] Address Map 00:18.2 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] DRAM Controller 00:18.3 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] Miscellaneous Control
Jun 19 17:08:09 dhcp-17 kernel: irq 7: nobody cared (try booting with the "irqpoll" option) Jun 19 17:08:09 dhcp-17 kernel: Jun 19 17:08:09 dhcp-17 kernel: Call Trace: Jun 19 17:08:09 dhcp-17 kernel: <IRQ> [<ffffffff802a42f9>] __report_bad_irq+0x30/0x7d Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff802a4533>] note_interrupt+0x1ed/0x22e Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff802a3a32>] __do_IRQ+0xc7/0x105 Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff80210381>] __do_softirq+0x5e/0xd5 Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff80263731>] do_IRQ+0x65/0x73 Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff8026181f>] default_idle+0x0/0x50 Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff80258111>] ret_from_intr+0x0/0xa Jun 19 17:08:09 dhcp-17 kernel: <EOI> [<ffffffff80261848>] default_idle+0x29/0x50 Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff802450da>] cpu_idle+0x95/0xb8 Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff8026c113>] start_secondary+0x43e/0x44d Jun 19 17:08:09 dhcp-17 kernel: Jun 19 17:08:09 dhcp-17 kernel: handlers: Jun 19 17:08:09 dhcp-17 kernel: [<ffffffff88067114>] (nv_generic_interrupt+0x0/0xa7 [sata_nv]) Jun 19 17:08:09 dhcp-17 kernel: Disabling IRQ #7 Jun 19 17:08:44 dhcp-17 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen Jun 19 17:08:44 dhcp-17 kernel: ata1.00: tag 0 cmd 0xea Emask 0x4 stat 0x40 err 0x0 (timeout) Jun 19 17:08:45 dhcp-17 kernel: ata1: soft resetting port Jun 19 17:08:45 dhcp-17 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jun 19 17:09:15 dhcp-17 kernel: ata1.00: qc timeout (cmd 0xec) Jun 19 17:09:15 dhcp-17 kernel: ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4) Jun 19 17:09:15 dhcp-17 kernel: ata1.00: revalidation failed (errno=-5) Jun 19 17:09:15 dhcp-17 kernel: ata1: failed to recover some devices, retrying in 5 secs Jun 19 17:09:20 dhcp-17 kernel: ata1: hard resetting port Jun 19 17:09:20 dhcp-17 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jun 19 17:09:50 dhcp-17 kernel: ata1.00: qc timeout (cmd 0xec) Jun 19 17:09:50 dhcp-17 kernel: ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4) Jun 19 17:09:50 dhcp-17 kernel: ata1.00: revalidation failed (errno=-5) Jun 19 17:09:50 dhcp-17 kernel: ata1: failed to recover some devices, retrying in 5 secs Jun 19 17:09:55 dhcp-17 kernel: ata1: hard resetting port Jun 19 17:09:56 dhcp-17 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Jun 19 17:10:26 dhcp-17 kernel: ata1.00: qc timeout (cmd 0xec) Jun 19 17:10:26 dhcp-17 kernel: ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4) Jun 19 17:10:26 dhcp-17 kernel: ata1.00: revalidation failed (errno=-5) Jun 19 17:10:26 dhcp-17 kernel: ata1.00: disabled Jun 19 17:10:26 dhcp-17 kernel: ata1: EH complete Jun 19 17:10:26 dhcp-17 kernel: sd 0:0:0:0: SCSI error: return code = 0x00040000 Jun 19 17:10:26 dhcp-17 kernel: end_request: I/O error, dev sda, sector 488391877 Jun 19 17:10:26 dhcp-17 kernel: raid1: Disk failure on sda3, disabling device. Jun 19 17:10:26 dhcp-17 kernel: ^IOperation continuing on 1 devices Jun 19 17:10:26 dhcp-17 kernel: sd 0:0:0:0: SCSI error: return code = 0x00040000 Jun 19 17:10:26 dhcp-17 kernel: end_request: I/O error, dev sda, sector 385343 Jun 19 17:10:26 dhcp-17 kernel: raid1: Disk failure on sda1, disabling device. Jun 19 17:10:26 dhcp-17 kernel: ^IOperation continuing on 1 devices Jun 19 17:10:26 dhcp-17 kernel: RAID1 conf printout: Jun 19 17:10:26 dhcp-17 kernel: --- wd:1 rd:2 Jun 19 17:10:26 dhcp-17 kernel: disk 0, wo:1, o:0, dev:sda3 Jun 19 17:10:26 dhcp-17 kernel: disk 1, wo:0, o:1, dev:sdb3 Jun 19 17:10:26 dhcp-17 kernel: RAID1 conf printout: Jun 19 17:10:26 dhcp-17 kernel: --- wd:1 rd:2 Jun 19 17:10:26 dhcp-17 kernel: disk 1, wo:0, o:1, dev:sdb3 Jun 19 17:10:26 dhcp-17 kernel: RAID1 conf printout: Jun 19 17:10:26 dhcp-17 kernel: --- wd:1 rd:2 Jun 19 17:10:26 dhcp-17 kernel: disk 0, wo:1, o:0, dev:sda1 Jun 19 17:10:26 dhcp-17 kernel: disk 1, wo:0, o:1, dev:sdb1 Jun 19 17:10:26 dhcp-17 kernel: RAID1 conf printout: Jun 19 17:10:26 dhcp-17 kernel: --- wd:1 rd:2 Jun 19 17:10:26 dhcp-17 kernel: disk 1, wo:0, o:1, dev:sdb1