Hallo Konrad, Am 03.05.2005 um 19:25 schrieb Konrad Rosenbaum:
On Tuesday 03 May 2005 17:13, Uwe Beger wrote:
Könnte a) Perl hierfür ein geeigneter Ansatz sein (wollte schon lange mal hineinschauen) und b) wie würden die Wissenden unter Euch vorgehen? Möglicherweise gibt es ja c) auch noch ganz andere Ideen hierfür?
Eigentlich eigenet sich jede Sprache dafür.
Perl wäre schon bevorzugt, ich mache damit schon ein wenig mehr im Umfeld dessen, was weiter unten beschrieben wird.
Aber was sind eigentlich die Regeln hinter Deiner Ergebnisliste?
So eine Frage hatte ich fast schon erwartet ;-)
Ich verwalte in einer Chemie-Datenbank mehrere Millionen organische Strukturen. Jede Struktur hat auch eine eindeutige ID. Aus historisch zu nennenden Gründen ist das ein String. Eine ganze Menge der Strukturen sind nun zueinander als Struktur identisch und ich benötige dieses sich permanent verändernde Wissen um diese Duplikate. Die Wertepaare stellen also Verweise auf chemisch identische Strukturen aus verschiedenen Quellen dar. Pro Jahr kommen vielleicht 300'000 Strukturen dazu, einige wenige fallen auch aus. Ungefähr 20% der "neuen" Strukturen sind duplikat zu bereits bekannten Strukturen. An unsere Kunden (www.labotest.com) möchten wir nur Strukturen weitergeben, die nicht duplikat zu anderen sind. Darüber hinaus spielt auch noch die Verfügbarkeit der Duplikate, die aus ziemlich unterschiedlichen Quellen stammen können, eine Rolle.
Die Spiegelung der beiden Seiten der Duplikatliste sollte ich vermutlich als erstes obsolet machen. Aber das ist eine ganz andere Baustelle (Borland Paradox 7).
Beste Grüße, Uwe.