Hej!
- In unserer Forschungsgruppe sammeln wir weltweit Daten über
Schwangerschaften, um bei bestimmten Auffälligkeiten zu Beginn der Schwangerschaft das Risiko einer lebensbedrohlichen Krankheit am Ende einzuschätzen. Uns schicken nur wenige Ärzte Informationen über den Verlauf ihrer Patientinnen.
Ich bezweifle mal, dass die mehr schicken würden, nur weil sie die Daten statt euch noch x anderen anonymen Datensammlern geben können.
Für die Qualität der Daten wäre es besser, wenn wir nicht das Zentrum bilden würden, die Krankenakten über diverse Server verteilt wären und jeder Forscher nur die nutzt, denen er traut.
Sowas nennt sich (verteilte) statistische Datenbank. In puncto Privacy verlockend, gegen statistische Tracker-Attacken unsicher gestaltet zu werden (zu viel Daten drin, weil man meint, da käme eh keiner ran).
Auch sehe ich keinen Zusammenhang zum ersten Problem.
- Es gibt den Versuch einer verteilten Websuchmaschine. Der Index ist
allerdings miserabel, die Suche langsam, und die Crawler arbeiten unkooperativ. Gegen Spam in den Suchergebnissen gibt es noch kein Konzept.
Wer unkooperativ ist, der wird sich wohl auf technischem Wege nicht zu etwas anderem zwingen lassen. In erster Linie ist das ein organisatorisch-willentliches Problem.
Was bringen verteilte Websuchmaschinen eigentlich? Viele verschiedene Suchmaschinen ermöglichen es, sich ein breites Bild bzgl. bestimmer Informationen zu machen. Wenn die verteilten Websuchmaschinen sich aber wieder abstimmen, wer für welche Begriffe oder Teile des Netzes zuständig ist, dann bin ich für einen bestimmten Term/Netzbereich auf eine Suchmaschine festgelegt. Was gewinne ich damit?
- Singleportale kennt jeder. Einige haben Matchingalgorithmen, die
eventuell passende Partner vorschlagen. Diese Algorithmen sind nichts Besonderes und frei verfügbar. Die Anbieter schalten im Verdrängungskampf wie bescheuert Werbung, um ihre Datenbank zu füllen. Gibt es eine Möglichkeit, verschiedene Datenbanken zu verbinden, mit beliebigen Algorithmen darauf zuzugreifen und mit unterschiedlichen Oberflächen darauf zuzugreifen? Wie könnte das in der Praxis funktionieren?
Welchen Anreiz hätten denn die Portale, dir das zu ermöglichen :P
Die wollen doch ihr Geld mit den Daten verdienen. Also wieder eine organisatorisch-willentliche Frage.
- Das Fraunhofer Institut forscht gerade an einer intelligenten
Echtzeit-Mitfahrzentrale. Einer fährt von Amsterdam nach Berlin und nimmt mal eben jemanden von Hannover nach Magdeburg mit. Die Zuordnung geschieht automatisch, ebenso die Bezahlung. Wer unzuverlässig ist, bekommt ein schlechtes Ranking. In der Praxis setzt man sich ins Auto und gibt in sein Handy ein, wo man hinfährt bzw. man stellt sich an die Straße und sagt der Zentrale, wo man hin will. Auch hier ist wieder das Problem, dass die Datenbank zentral aufgebaut ist. Es wird konkurrierende Systeme geben, die jeweils nur ein geringeres Angebot an Fahrten verwalten und damit auf dem Lande kaum funktionieren. Oder einen Giganten, der das deutsche Verkehrssystem beherrscht. Auch hier die Frage: Ließe sich diese Datenbank verteilen?
Gibt es einen Ansatz für dieses Problem?
_Technisch_ sind verteilte Datenbanken kein sonderliches Problem. Auch hier fragt sich allerdings, ob die Anbieter das _wollen_. Jeder Anbieter _muss_ schließlich Geld verdienen, allein schon um die Server zu betreiben. Üblicherweise verdient der kein Geld mehr, wenn seine Seite statt direkt vom regionalen Kunden besucht zu werden nur noch mit einem woanders laufenden Bot redet.
Zur Technik _verteilter_ Datenbanken:
Viele DBMS bieten es von Haus aus an, über mehrere Server verteilt zu werden (wenngleich dann nur indirekt festlegbar ist, welche Daten wo gespeichert werden). Knackpunkt: technisch sind die dann eng miteinander verzahnt, alle Akteure müssen die selbe (außerhalb großer Unternehmen selten anzutreffende) Technik einsetzen => für deinen Zweck zu unflexibel.
In deinen Fällen wäre wohl ein Metasuchtool, dass x Datenbanken (über deren Websites) direkt anfragt und dann die Ergebnisse aggregiert, das einfachste.
Beste Grüße Fabian