Netzwerk Fehler (NETDEV WATCHDOG) unter SLES 9

Die schwierigsten Probleme bei der Fehlerbehebung sind ja bekanntlich die "Blinker-Effekte": Geht, geht nicht, geht, geht nicht.
Mit einem solchen Problem kämpfe ich zur Zeit bei einem Dell PowerEdge 2850.
Dieser Rechner wird unter dem SuSE Enterprise Server 9 (SLES 9) betrieben. Gelegentlich, aber natürlich immer zur unpassenden Zeit ist dieser Rechner nicht per Netzwerk zu erreichen. Die Zeitspanne ist gerade so lange, dass meine Nagios
-Überwachung anschlägt. Bis man aber reagieren kann, sprich bis man im Server-Raum angekommen ist, läuft schon wieder alles bestens.
In /var/log/messages findet man die beiden folgenden Einträge:
NETDEV WATCHDOG: eth0: transmit timed out
kernel: e1000: eth0: e1000_watchdog: NIC Link is Up 100 Mbps Full Duplex
Googlet man nach dieser Fehlermeldung, so findet man häufig den Hinweis, dass man das ACPI ausschalten soll. Dies habe ich zähneknirschend getan (schließlich ist danach auch das Hyperthreading weg….) — allerdings ohne Erfolg. Sucht man weiter, findet man bei DELL den Hinweis (allerdings für Red Hat Linux), man solle auf jeden Fall beim Netzwerkkarten-Treiber den Parameter RxIntDelay auf "0" setzen. Dies brachte leider auch nicht den gewünschten Effekt.
Die üblichen Verdächtigen sind auch schon ausgeschlossen worden: Das Netzwerkkabel und der Port im Switch wurden getauscht. Auch die zweite interne Netzwerkkarte wurde ausprobiert. Ebenso wurden sowohl Switch als auch die Netzwerkkarte fest auf 100MBit und Full-Duplex gestellt.
Nun stochert der Support von Dell im Nebel und hat das ganze an SuSE eskaliert. Die wollen aber nun weitere Reports — nach Möglichkeite unmittelbar nach dem Auftreten des Fehlers — haben.
So warte ich darauf, dass der Fehler sich wieder zeigt….

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *