Bernhard Schiffner bernhard@schiffner-limbach.de (Di 14 Dez 2010 10:50:00 CET):
Hallo,
nehmen wir an ich hätte einen Quelltext geschrieben. Ich kenne Filename und - größe, Hashsumme etc.
Jemand ändert nun den Dateinamen und ergänzt den Inhalt geringfügig. Name und Hash ändern sich.
Gibt es eine Möglichkeit die weitgehende Ähnlichkeit der beiden Dateien in irgendeinem Maß festzulegen? (Vergleich auf alle möglichen Substrings an allen möglichen Orten fällt wegen Aufwands aus.)
Mir fällt die git rename -Logik ein. Dazu finde ich aber weder Code noch Logik...
Hat jemand eine idee?
Vielleicht bei rsync mal die Logik hinter --fuzzy ansehen.
Oder die Worthäufigkeiten zählen. Dann vielleicht noch die Häufigkeiten von Wortpaaren oder ganzen Sätzen. Oder die Whitespace-Verteilung.
Vielleicht hilft es auch weiter, verschiedene unscharfe Spamerkenner zu analysieren.