On 21.01.14 Konrad Rosenbaum (konrad@silmor.de) wrote:
On Sunday, Sunday 19 January 2014 at 23:17, Hilmar Preusse wrote:
Moin,
eine Kunde von uns hat eine Applikation die ganz schön viel RAM braucht (so 80GB) auf RH 6.x. Wenn er diese stoppt kann sie anschließend nicht wieder korrekt gestartet werden. Er hat heraus gefunden, daß man den Cache vom OS vorher explizit leeren kann und dann fährt die Applikation wieder hoch.
Industriekunde? Oder eher akademischer Kunde?
Ja, Industriekunde: eine Vertica DB.
Ich würde mal eine Nacht lang memtest drüber laufen lassen. Es klingt zwar so als wäre es ein System welches natürlicherweise mit ordentlichem ECC-RAM kommt, aber man weiß nie...
Auf einem produktiven Server ein memtest laufen lassen? Damit werde ich wohl nicht durchkommen.
Race Condition halte ich für sehr wahrscheinlich. Gecachte Daten ändern die Laufzeiten gewaltig. Nach meiner Erfahrung sind 95% solcher Effekte simple Race Conditions.
Danke für sie Einschätzung.
Tipps:
...setzen zum größten Teil voraus, daß man den Quellcode hat. Haben wir aber nicht. Mal schauen, ob wir mit valgrind weiter kommen.
Hilmar