Hi Hilmar,
On 21.01.2014, at 16:31, Hilmar Preusse hille42@web.de wrote:
Der Kunde hat kein sync ausgeführt, also gabs scheinbar keine dirty pages, sonst hätte es nicht geholfen.
Da dies mit sehr hoher Wahrscheinlichkeit ein NUMA-System ist, was sagt den z.B. "numactl -H” vor dem Start und auf was steht der Kernel-Parameter vm.zone_reclaim_mode? Auf was ist vm.overcommit_memory gestellt?
Ich vermute, Du beziehst Dich auf das hier http://www.poempelfox.de/blog/2010/03/
Nein, Erfahrungswerte ;-)
Ich häng Dir erstmal den Output von zoneinfo an. Eventuell sagt es ja was.
Ist das die Information vor dem Neustart oder während die Applikation läuft? Im System sind 2 NUMA-Nodes mit jeweils 48GB RAM, was sagt nun ein numactl -H vor dem Neustart?
Default:
vm.overcommit_memory = 0 vm.overcommit_ratio = 50
vm.zone_reclaim_interval = 30 vm.zone_reclaim_mode = 0
Du könntest Testweise vm.overcommit_memory = 1 mit vm.zone_reclaim_mode = 1 probieren. Das erstere führt dazu, dass man quasi beliebig viel Speicher allokieren kann (der Wert 0 ist eine heuristische Konfiguration, bei der der Kernel probiert zu "schätzen" ob der freie Speicher für die Allokation reicht). Der zweite Wert führt dazu, dass in der zu allokierenden Zone, auf dem aktuellen NUMA-Node, probiert wird, einfach freizugebender Speicher wieder freizugeben (also z.B. page cache), wenn die Gefahr besteht, dass die Zone "leer" läuft.
Wie schon in der vorherigen Mail geschrieben, interessant wäre noch die Fehlermeldung der Applikation.
MfG Martin