Hallo Lug!
Mit der Frage beschäftige ich mich schon sehr lange. Als lieber guter Hacker bekämpft man ja Zentralisierung wo man nur kann. Wir benutzen E-Mail statt Facebook, Jabber statt ICQ und verwenden beliebte Browser schon aus Prinzip nicht.
Nun mache ich mir Gedanken, wie das mit Datenbanken funktionieren soll. Dazu vier Beispiele.
1. In unserer Forschungsgruppe sammeln wir weltweit Daten über Schwangerschaften, um bei bestimmten Auffälligkeiten zu Beginn der Schwangerschaft das Risiko einer lebensbedrohlichen Krankheit am Ende einzuschätzen. Uns schicken nur wenige Ärzte Informationen über den Verlauf ihrer Patientinnen. Für die Qualität der Daten wäre es besser, wenn wir nicht das Zentrum bilden würden, die Krankenakten über diverse Server verteilt wären und jeder Forscher nur die nutzt, denen er traut.
2. Es gibt den Versuch einer verteilten Websuchmaschine. Der Index ist allerdings miserabel, die Suche langsam, und die Crawler arbeiten unkooperativ. Gegen Spam in den Suchergebnissen gibt es noch kein Konzept.
3. Singleportale kennt jeder. Einige haben Matchingalgorithmen, die eventuell passende Partner vorschlagen. Diese Algorithmen sind nichts Besonderes und frei verfügbar. Die Anbieter schalten im Verdrängungskampf wie bescheuert Werbung, um ihre Datenbank zu füllen. Gibt es eine Möglichkeit, verschiedene Datenbanken zu verbinden, mit beliebigen Algorithmen darauf zuzugreifen und mit unterschiedlichen Oberflächen darauf zuzugreifen? Wie könnte das in der Praxis funktionieren?
4. Das Fraunhofer Institut forscht gerade an einer intelligenten Echtzeit-Mitfahrzentrale. Einer fährt von Amsterdam nach Berlin und nimmt mal eben jemanden von Hannover nach Magdeburg mit. Die Zuordnung geschieht automatisch, ebenso die Bezahlung. Wer unzuverlässig ist, bekommt ein schlechtes Ranking. In der Praxis setzt man sich ins Auto und gibt in sein Handy ein, wo man hinfährt bzw. man stellt sich an die Straße und sagt der Zentrale, wo man hin will. Auch hier ist wieder das Problem, dass die Datenbank zentral aufgebaut ist. Es wird konkurrierende Systeme geben, die jeweils nur ein geringeres Angebot an Fahrten verwalten und damit auf dem Lande kaum funktionieren. Oder einen Giganten, der das deutsche Verkehrssystem beherrscht. Auch hier die Frage: Ließe sich diese Datenbank verteilen?
Gibt es einen Ansatz für dieses Problem? Thomas
Hej!
- In unserer Forschungsgruppe sammeln wir weltweit Daten über
Schwangerschaften, um bei bestimmten Auffälligkeiten zu Beginn der Schwangerschaft das Risiko einer lebensbedrohlichen Krankheit am Ende einzuschätzen. Uns schicken nur wenige Ärzte Informationen über den Verlauf ihrer Patientinnen.
Ich bezweifle mal, dass die mehr schicken würden, nur weil sie die Daten statt euch noch x anderen anonymen Datensammlern geben können.
Für die Qualität der Daten wäre es besser, wenn wir nicht das Zentrum bilden würden, die Krankenakten über diverse Server verteilt wären und jeder Forscher nur die nutzt, denen er traut.
Sowas nennt sich (verteilte) statistische Datenbank. In puncto Privacy verlockend, gegen statistische Tracker-Attacken unsicher gestaltet zu werden (zu viel Daten drin, weil man meint, da käme eh keiner ran).
Auch sehe ich keinen Zusammenhang zum ersten Problem.
- Es gibt den Versuch einer verteilten Websuchmaschine. Der Index ist
allerdings miserabel, die Suche langsam, und die Crawler arbeiten unkooperativ. Gegen Spam in den Suchergebnissen gibt es noch kein Konzept.
Wer unkooperativ ist, der wird sich wohl auf technischem Wege nicht zu etwas anderem zwingen lassen. In erster Linie ist das ein organisatorisch-willentliches Problem.
Was bringen verteilte Websuchmaschinen eigentlich? Viele verschiedene Suchmaschinen ermöglichen es, sich ein breites Bild bzgl. bestimmer Informationen zu machen. Wenn die verteilten Websuchmaschinen sich aber wieder abstimmen, wer für welche Begriffe oder Teile des Netzes zuständig ist, dann bin ich für einen bestimmten Term/Netzbereich auf eine Suchmaschine festgelegt. Was gewinne ich damit?
- Singleportale kennt jeder. Einige haben Matchingalgorithmen, die
eventuell passende Partner vorschlagen. Diese Algorithmen sind nichts Besonderes und frei verfügbar. Die Anbieter schalten im Verdrängungskampf wie bescheuert Werbung, um ihre Datenbank zu füllen. Gibt es eine Möglichkeit, verschiedene Datenbanken zu verbinden, mit beliebigen Algorithmen darauf zuzugreifen und mit unterschiedlichen Oberflächen darauf zuzugreifen? Wie könnte das in der Praxis funktionieren?
Welchen Anreiz hätten denn die Portale, dir das zu ermöglichen :P
Die wollen doch ihr Geld mit den Daten verdienen. Also wieder eine organisatorisch-willentliche Frage.
- Das Fraunhofer Institut forscht gerade an einer intelligenten
Echtzeit-Mitfahrzentrale. Einer fährt von Amsterdam nach Berlin und nimmt mal eben jemanden von Hannover nach Magdeburg mit. Die Zuordnung geschieht automatisch, ebenso die Bezahlung. Wer unzuverlässig ist, bekommt ein schlechtes Ranking. In der Praxis setzt man sich ins Auto und gibt in sein Handy ein, wo man hinfährt bzw. man stellt sich an die Straße und sagt der Zentrale, wo man hin will. Auch hier ist wieder das Problem, dass die Datenbank zentral aufgebaut ist. Es wird konkurrierende Systeme geben, die jeweils nur ein geringeres Angebot an Fahrten verwalten und damit auf dem Lande kaum funktionieren. Oder einen Giganten, der das deutsche Verkehrssystem beherrscht. Auch hier die Frage: Ließe sich diese Datenbank verteilen?
Gibt es einen Ansatz für dieses Problem?
_Technisch_ sind verteilte Datenbanken kein sonderliches Problem. Auch hier fragt sich allerdings, ob die Anbieter das _wollen_. Jeder Anbieter _muss_ schließlich Geld verdienen, allein schon um die Server zu betreiben. Üblicherweise verdient der kein Geld mehr, wenn seine Seite statt direkt vom regionalen Kunden besucht zu werden nur noch mit einem woanders laufenden Bot redet.
Zur Technik _verteilter_ Datenbanken:
Viele DBMS bieten es von Haus aus an, über mehrere Server verteilt zu werden (wenngleich dann nur indirekt festlegbar ist, welche Daten wo gespeichert werden). Knackpunkt: technisch sind die dann eng miteinander verzahnt, alle Akteure müssen die selbe (außerhalb großer Unternehmen selten anzutreffende) Technik einsetzen => für deinen Zweck zu unflexibel.
In deinen Fällen wäre wohl ein Metasuchtool, dass x Datenbanken (über deren Websites) direkt anfragt und dann die Ergebnisse aggregiert, das einfachste.
Beste Grüße Fabian
Am Freitag, den 12.03.2010, 17:50 +0100 schrieb Fabian Hänsel:
- Es gibt den Versuch einer verteilten Websuchmaschine. Der Index ist
allerdings miserabel, die Suche langsam, und die Crawler arbeiten unkooperativ. Gegen Spam in den Suchergebnissen gibt es noch kein Konzept.
Wer unkooperativ ist, der wird sich wohl auf technischem Wege nicht zu etwas anderem zwingen lassen. In erster Linie ist das ein organisatorisch-willentliches Problem.
Was bringen verteilte Websuchmaschinen eigentlich? Viele verschiedene Suchmaschinen ermöglichen es, sich ein breites Bild bzgl. bestimmer Informationen zu machen. Wenn die verteilten Websuchmaschinen sich aber wieder abstimmen, wer für welche Begriffe oder Teile des Netzes zuständig ist, dann bin ich für einen bestimmten Term/Netzbereich auf eine Suchmaschine festgelegt. Was gewinne ich damit?
Die Kataloge kontrollieren sich gegenseitig. Dadurch wird verhindert, dass jemand nennenswerten Einfluss auf die Suchantworten nimmt. Wir erinnern uns, Google zensiert in Europa massenweise Webseiten. Ein dezentrales Netzwerk lässt sich viel schlechter zensieren.
- Singleportale kennt jeder. Einige haben Matchingalgorithmen, die
eventuell passende Partner vorschlagen. Diese Algorithmen sind nichts Besonderes und frei verfügbar. Die Anbieter schalten im Verdrängungskampf wie bescheuert Werbung, um ihre Datenbank zu füllen. Gibt es eine Möglichkeit, verschiedene Datenbanken zu verbinden, mit beliebigen Algorithmen darauf zuzugreifen und mit unterschiedlichen Oberflächen darauf zuzugreifen? Wie könnte das in der Praxis funktionieren?
Welchen Anreiz hätten denn die Portale, dir das zu ermöglichen :P
Die wollen doch ihr Geld mit den Daten verdienen. Also wieder eine organisatorisch-willentliche Frage.
Ich nehme mal Twitter als Beispiel. Scheiß Freundeslisten, langsam, unzuverlässig, Aggregation macht keinen Spaß, Update nur über wenige Schnittstellen möglich. Im Gegensatz dazu Blogs mit ihren Feedburnern, Bildern, Videos, statischen Anteilen und so weiter. Für Autoren und Leser sind die dezentralen Blogs erheblich attraktiver. Dieses Potential würde ich gerne mal für Singleportale durchspielen. Wie müsste die Userdatenbank aufgebaut sein? Wie geht dann das Matching? Forschungsgelder für so einen Spaß sind sicherlich auffindbar.
- Das Fraunhofer Institut forscht gerade an einer intelligenten
Echtzeit-Mitfahrzentrale. Einer fährt von Amsterdam nach Berlin und nimmt mal eben jemanden von Hannover nach Magdeburg mit. Die Zuordnung geschieht automatisch, ebenso die Bezahlung. Wer unzuverlässig ist, bekommt ein schlechtes Ranking. In der Praxis setzt man sich ins Auto und gibt in sein Handy ein, wo man hinfährt bzw. man stellt sich an die Straße und sagt der Zentrale, wo man hin will. Auch hier ist wieder das Problem, dass die Datenbank zentral aufgebaut ist. Es wird konkurrierende Systeme geben, die jeweils nur ein geringeres Angebot an Fahrten verwalten und damit auf dem Lande kaum funktionieren. Oder einen Giganten, der das deutsche Verkehrssystem beherrscht. Auch hier die Frage: Ließe sich diese Datenbank verteilen?
Gibt es einen Ansatz für dieses Problem?
_Technisch_ sind verteilte Datenbanken kein sonderliches Problem. Auch hier fragt sich allerdings, ob die Anbieter das _wollen_. Jeder Anbieter _muss_ schließlich Geld verdienen, allein schon um die Server zu betreiben. Üblicherweise verdient der kein Geld mehr, wenn seine Seite statt direkt vom regionalen Kunden besucht zu werden nur noch mit einem woanders laufenden Bot redet.
Wenn man nur die Serversoftware verteilt, braucht man die Kapazitäten nicht mehr selbst vorzuhalten. Sicherlich würden einige Firmen aus Imagegründen einen Knoten laufen lassen. Die Entwicklung bezahlt eh der Staat. Von daher sehe ich keine Probleme in der Motivation.
Zur Technik _verteilter_ Datenbanken:
Das ist auf jeden Fall lösbar.
In deinen Fällen wäre wohl ein Metasuchtool, dass x Datenbanken (über deren Websites) direkt anfragt und dann die Ergebnisse aggregiert, das einfachste.
Es sind ja nicht nur Suchen, aber das ist eine der ersten Fragen. Wenn man die Suchanfrage zur Datenbank bringt, kann die Datenbank das Suchergebnis schönen. Außerdem müsste jede Anfrage zu jeder Datenbank verteilt werden. Wenn umgekehrt die Suchmaschinen über die Inhalte der Datenbanken informiert sind, ist jeder Server ein hundertprozentiger Mirror. Etwas viel Redundanz. An dieser Stelle beginnen meine Überlegungen, wie so ein Netzwerk aufgebaut werden könnte.
Thomas
schmidt@netaction.de schmidt@netaction.de (Fr 12 Mär 2010 11:17:23 CET):
Hallo Lug!
Mit der Frage beschäftige ich mich schon sehr lange. Als lieber guter Hacker bekämpft man ja Zentralisierung wo man nur kann. Wir benutzen E-Mail statt Facebook, Jabber statt ICQ und verwenden beliebte Browser schon aus Prinzip nicht.
Nun mache ich mir Gedanken, wie das mit Datenbanken funktionieren soll.
(…)
DNS ist z.B. eine verteilte Datenbank. LDAP könnte sowas auch.
lug-dd@mailman.schlittermann.de