On 14.12.2010 10:50, Bernhard Schiffner wrote:
Hallo!
nehmen wir an ich hätte einen Quelltext geschrieben. Ich kenne Filename und - größe, Hashsumme etc.
Jemand ändert nun den Dateinamen und ergänzt den Inhalt geringfügig. Name und Hash ändern sich.
Gibt es eine Möglichkeit die weitgehende Ähnlichkeit der beiden Dateien in irgendeinem Maß festzulegen? (Vergleich auf alle möglichen Substrings an allen möglichen Orten fällt wegen Aufwands aus.)
Mir fällt die git rename -Logik ein. Dazu finde ich aber weder Code noch Logik...
Hat jemand eine idee?
Ich denke eine Spamfilter auf Basis von SpamAssassin müsste doch genau das machen (inzwischen macht er denke ich noch mehr, aber der ursprüngliche Gedanke war glaube ich die Implementierung eines Bayes-Filters).
Wenn man sich mal die Parameter anschaut (oder gleich das entsprechende Perl-Modul?), lässt der sich bestimmt missbrauchen...
Alternativ zu Bayes kann man auch irgendwas mit Fuzzy machen, dort ist mir allerdings der theoretische Hintergrund immer etwas willkürlich gewählt :P
Marcus