Hi,
On Sunday, Sunday 19 January 2014 at 23:17, Hilmar Preusse wrote:
> eine Kunde von uns hat eine Applikation die ganz schön viel RAM
> braucht (so 80GB) auf RH 6.x. Wenn er diese stoppt kann sie
> anschließend nicht wieder korrekt gestartet werden. Er hat heraus
> gefunden, daß man den Cache vom OS vorher explizit leeren kann und
> dann fährt die Applikation wieder hoch.
Industriekunde? Oder eher akademischer Kunde?
Erstere stricken Programme immer mit der heißen Nadel. Letztere kann man überzeugen sich den Bug richtig anzuschaun.
> Kernelbug? Oder blöde race condition?
Kernelbug ist nicht unmöglich, aber unwahrscheinlich.
Ich würde mal eine Nacht lang memtest drüber laufen lassen. Es klingt zwar so als wäre es ein System welches natürlicherweise mit ordentlichem ECC-RAM kommt, aber man weiß nie...
Race Condition halte ich für sehr wahrscheinlich. Gecachte Daten ändern die Laufzeiten gewaltig. Nach meiner Erfahrung sind 95% solcher Effekte simple Race Conditions.
Tipps:
* schau mal ob es offensichtlich ungesicherten parallelen Code gibt
* schau Dir alle Stellen an die (u)sleep machen, um irgendetwas anderem Zeit zu geben
* wenn es nichts offensichtliches gibt: Valgrind.
Konrad