Hallo Leute!
So, Vorgeschichte: Ich habe im Büro ein altes Cluster mit Corosync und DRBD geerbt. Derjenige, der das eingerichtet hat ist seit lange nicht mehr in der Firma und hat, wie in der besten Tradition, nichts dokumentiert. Andere Kollegen, die von Corosync keine Ahnung hatten, haben manuell DRBD-Partitionen angelegt und Dienste gestartet, ohne sie im Corosync zu konfigurieren. Vor ein paar Wochen ist ein Cluster-Knote ausgefallen. Als ich versucht habe, ihn wieder zu beleben, habe ich das große Chaos entdeckt und versucht alles wieder gerade zu biegen, leider bisher mit wenigem Erfolg...
Am letzten Montag habe ich den Cluster wieder gestartet und erstmal ging. Dann habe ich einen Failover probiert. Auch das ging. Als ich aber versucht habe, alles wieder zurück zu schieben, ist alles in Split-Brain gegangen... :(
Ich habe dann Corosync auf dem Knote ausgeschaltet, wo die Daten "am ältesten" waren, und habe erstmal wieder versucht die DRBD-Daten zu synchronisieren. Dafür habe ich drbdadm benutzt. Erstmal ein detach, dann invalidate, attach und endlich connect für die beide Partitionen. Heute, nach fast eine Woche Sync (17 Terabytes sind viele Daten...) ist die Synchronisierung zum Ende. Dann habe ich Corosync wieder auf dem "offline-Knoten" gestartet. Und habe wieder einen Split-Brain erlebt, sowohl bei Corosync als auch bei DRBD.
Ich will natürlich nicht wieder den Sync starten, bevor ich einen richtigen Plan habe, was ich danach mache. Leider nutze ich Corosync seit Jahren nicht mehr, also bin ich nicht mehr so fit.
Kann jemand mir ein paar Tipps geben und einige Idee warum es wieder in Split-Brain gegangen ist, sofort nach Hochfahren?
Tausend Dank Luca Bertoncello (lucabert@lucabert.de)
lug-dd@mailman.schlittermann.de