Hallo Leute!
So, Vorgeschichte:
Ich habe im Büro ein altes Cluster mit Corosync und DRBD geerbt.
Derjenige, der das eingerichtet hat ist seit lange nicht mehr in der
Firma und hat, wie in der besten Tradition, nichts dokumentiert.
Andere Kollegen, die von Corosync keine Ahnung hatten, haben manuell
DRBD-Partitionen angelegt und Dienste gestartet, ohne sie im Corosync zu
konfigurieren.
Vor ein paar Wochen ist ein Cluster-Knote ausgefallen. Als ich versucht
habe, ihn wieder zu beleben, habe ich das große Chaos entdeckt und
versucht alles wieder gerade zu biegen, leider bisher mit wenigem
Erfolg...
Am letzten Montag habe ich den Cluster wieder gestartet und erstmal
ging. Dann habe ich einen Failover probiert. Auch das ging. Als ich aber
versucht habe, alles wieder zurück zu schieben, ist alles in Split-Brain
gegangen... :(
Ich habe dann Corosync auf dem Knote ausgeschaltet, wo die Daten "am
ältesten" waren, und habe erstmal wieder versucht die DRBD-Daten zu
synchronisieren. Dafür habe ich drbdadm benutzt. Erstmal ein detach,
dann invalidate, attach und endlich connect für die beide Partitionen.
Heute, nach fast eine Woche Sync (17 Terabytes sind viele Daten...) ist
die Synchronisierung zum Ende. Dann habe ich Corosync wieder auf dem
"offline-Knoten" gestartet. Und habe wieder einen Split-Brain erlebt,
sowohl bei Corosync als auch bei DRBD.
Ich will natürlich nicht wieder den Sync starten, bevor ich einen
richtigen Plan habe, was ich danach mache.
Leider nutze ich Corosync seit Jahren nicht mehr, also bin ich nicht
mehr so fit.
Kann jemand mir ein paar Tipps geben und einige Idee warum es wieder in
Split-Brain gegangen ist, sofort nach Hochfahren?
Tausend Dank
Luca Bertoncello
(lucabert(a)lucabert.de)