Am Freitag, den 12.03.2010, 17:50 +0100 schrieb Fabian Hänsel:
- Es gibt den Versuch einer verteilten Websuchmaschine. Der Index ist
allerdings miserabel, die Suche langsam, und die Crawler arbeiten unkooperativ. Gegen Spam in den Suchergebnissen gibt es noch kein Konzept.
Wer unkooperativ ist, der wird sich wohl auf technischem Wege nicht zu etwas anderem zwingen lassen. In erster Linie ist das ein organisatorisch-willentliches Problem.
Was bringen verteilte Websuchmaschinen eigentlich? Viele verschiedene Suchmaschinen ermöglichen es, sich ein breites Bild bzgl. bestimmer Informationen zu machen. Wenn die verteilten Websuchmaschinen sich aber wieder abstimmen, wer für welche Begriffe oder Teile des Netzes zuständig ist, dann bin ich für einen bestimmten Term/Netzbereich auf eine Suchmaschine festgelegt. Was gewinne ich damit?
Die Kataloge kontrollieren sich gegenseitig. Dadurch wird verhindert, dass jemand nennenswerten Einfluss auf die Suchantworten nimmt. Wir erinnern uns, Google zensiert in Europa massenweise Webseiten. Ein dezentrales Netzwerk lässt sich viel schlechter zensieren.
- Singleportale kennt jeder. Einige haben Matchingalgorithmen, die
eventuell passende Partner vorschlagen. Diese Algorithmen sind nichts Besonderes und frei verfügbar. Die Anbieter schalten im Verdrängungskampf wie bescheuert Werbung, um ihre Datenbank zu füllen. Gibt es eine Möglichkeit, verschiedene Datenbanken zu verbinden, mit beliebigen Algorithmen darauf zuzugreifen und mit unterschiedlichen Oberflächen darauf zuzugreifen? Wie könnte das in der Praxis funktionieren?
Welchen Anreiz hätten denn die Portale, dir das zu ermöglichen :P
Die wollen doch ihr Geld mit den Daten verdienen. Also wieder eine organisatorisch-willentliche Frage.
Ich nehme mal Twitter als Beispiel. Scheiß Freundeslisten, langsam, unzuverlässig, Aggregation macht keinen Spaß, Update nur über wenige Schnittstellen möglich. Im Gegensatz dazu Blogs mit ihren Feedburnern, Bildern, Videos, statischen Anteilen und so weiter. Für Autoren und Leser sind die dezentralen Blogs erheblich attraktiver. Dieses Potential würde ich gerne mal für Singleportale durchspielen. Wie müsste die Userdatenbank aufgebaut sein? Wie geht dann das Matching? Forschungsgelder für so einen Spaß sind sicherlich auffindbar.
- Das Fraunhofer Institut forscht gerade an einer intelligenten
Echtzeit-Mitfahrzentrale. Einer fährt von Amsterdam nach Berlin und nimmt mal eben jemanden von Hannover nach Magdeburg mit. Die Zuordnung geschieht automatisch, ebenso die Bezahlung. Wer unzuverlässig ist, bekommt ein schlechtes Ranking. In der Praxis setzt man sich ins Auto und gibt in sein Handy ein, wo man hinfährt bzw. man stellt sich an die Straße und sagt der Zentrale, wo man hin will. Auch hier ist wieder das Problem, dass die Datenbank zentral aufgebaut ist. Es wird konkurrierende Systeme geben, die jeweils nur ein geringeres Angebot an Fahrten verwalten und damit auf dem Lande kaum funktionieren. Oder einen Giganten, der das deutsche Verkehrssystem beherrscht. Auch hier die Frage: Ließe sich diese Datenbank verteilen?
Gibt es einen Ansatz für dieses Problem?
_Technisch_ sind verteilte Datenbanken kein sonderliches Problem. Auch hier fragt sich allerdings, ob die Anbieter das _wollen_. Jeder Anbieter _muss_ schließlich Geld verdienen, allein schon um die Server zu betreiben. Üblicherweise verdient der kein Geld mehr, wenn seine Seite statt direkt vom regionalen Kunden besucht zu werden nur noch mit einem woanders laufenden Bot redet.
Wenn man nur die Serversoftware verteilt, braucht man die Kapazitäten nicht mehr selbst vorzuhalten. Sicherlich würden einige Firmen aus Imagegründen einen Knoten laufen lassen. Die Entwicklung bezahlt eh der Staat. Von daher sehe ich keine Probleme in der Motivation.
Zur Technik _verteilter_ Datenbanken:
Das ist auf jeden Fall lösbar.
In deinen Fällen wäre wohl ein Metasuchtool, dass x Datenbanken (über deren Websites) direkt anfragt und dann die Ergebnisse aggregiert, das einfachste.
Es sind ja nicht nur Suchen, aber das ist eine der ersten Fragen. Wenn man die Suchanfrage zur Datenbank bringt, kann die Datenbank das Suchergebnis schönen. Außerdem müsste jede Anfrage zu jeder Datenbank verteilt werden. Wenn umgekehrt die Suchmaschinen über die Inhalte der Datenbanken informiert sind, ist jeder Server ein hundertprozentiger Mirror. Etwas viel Redundanz. An dieser Stelle beginnen meine Überlegungen, wie so ein Netzwerk aufgebaut werden könnte.
Thomas