‹ Alle Einträge

Eine Wikipedia für freie Daten

 
Prototyp einer Eingabemaske für Wikidata
Prototyp einer Eingabemaske für Wikidata

Die Einwohnerzahl von Berlin ändert sich ständig. Jedes Jahr, wenn die neuen Zahlen veröffentlicht werden, setzt sich ein Wikipedia-Autor an den Eintrag über Berlin und aktualisiert ihn. Allerdings müsste die Zahl in jeder Ausgabe der Wikipedia von Hand geändert werden, von der englischen bis zur turkmenischen. Das soll anders werden, sagt Pavel Richter, Vorstand des Vereins Wikimedia Deutschland.

Ab dem 2. April wird ein Team aus zwölf Entwicklern in Berlin am Projekt Wikidata arbeiten. Es ist der offizielle Startschuss für ein Projekt, über das die Wikipedia-Community jahrelang diskutiert hat. “Wikidata ist die Wikipedia für Daten”, sagt Richter. Ziel ist, eine Datenbank aus strukturierten, frei zugänglichen Informationen zu schaffen, die jeder bearbeiten kann. Davon sollen auch die Wikipedia-Ausgaben in aller Welt profitieren.

Eines der ersten Ziele des Projektes ist es, die Daten in den Infoboxen von Wikipedia-Artikeln über Orte, Staaten oder Personen maschinenlesbar aufzubereiten. Denn so könnte die Datenbank alle Wikipedia-Ausgaben gleichzeitig füttern: Aktualisiert jemand die Einwohnerzahl von Berlin, wird diese Änderungen automatisch in allen Sprachausgaben sichtbar. Für die Editoren wäre das eine spürbare Erleichterung.

Doch Richter sagt, dass das Projekt seines Vereins auch anderen zugute kommen soll: “Wikidata stellt die Daten als Variablen zur Verfügung. Jeder, der sie haben möchte, kann sie für seine Zwecke einbinden.” So ließen sich dynamische Listen erstellen, etwa der zehn größten Städte der Welt, die von einer Frau regiert werden, die älter ist als… Solche Abfragen könnten beliebig komplex sein, je nach Sinn und Zweck.

Auch Visualisierungen der Daten wären möglich. Das jedoch müssten andere übernehmen, es ist nicht Ziel und Aufgabe des Projektteams. Die zwölf Entwickler programmieren erst einmal nur die Datenbank – als Datenquelle, die ihrerseits sagt, woher die Rohdaten stammen.

Geplant sei, sagt Richter, das Projekt innerhalb eines Jahres in mehreren Modulen umzusetzen. Erste Ergebnisse sollen bereits im Juli oder August präsentiert werden. Schnell folgen müsste aber auch eine Schnittstelle, über die man neue Daten einspeisen kann.

Finanziert wird Wikidata durch Spenden. Wer die ersten namhaften Spender sind, will Wikimedia Deutschland am heutigen Freitag bekanntgeben. Zu den Großspendern gehören das Allen Institute for Artificial Intelligence, das die Hälfte des  Gesamtbudgets von 1,3 Millionen Euro übernimmt, die Gordon and Betty Moore Foundation, die ein Viertel der Entwicklungskosten von Wikidata trägt, sowie Google, das ein weiteres Viertel der Kosten übernimmt.

Neben Geld braucht das Projekt aber noch eine andere Art von Spenden: Datenspenden. Eine leere Datenbank hilft niemandem. Richter sagt, man werde gezielt Institutionen ansprechen, die auf großen Datenbergen sitzen und sie fragen, ob sie diese der Allgemeinheit zur Verfügung stellen könnten.

Es wird also noch dauern, bis die Datenbank von Dritten genutzt werden kann. Für die Open-Data-Bewegung hierzulande ist es aber in jedem Fall ein gutes Zeichen, wenn sich ein so bekannter Verein wie Wikimedia Deutschland um die Förderung von freien Daten bemüht.

Für weitere Informationen lohnt sich ein Blick ins Metawiki zu zum Projekt Wikidata: Dort ist unter anderem ein früher Prototyp einer Benutzeroberfläche zu sehen.

14 Kommentare

  1.   henry06

    Und was ist mit der heiligen Kuh der Deutschen, dem Datenschutz? Da kommt ja ein neues Facebook auf uns zu. Was sagt denn der Herr Schaar zu dieser Datenkrake?

    (Wer die Ironie findet…)

    mfg henry


  2. […] Es ist eine Kernforderung der Piraten, nun gibt es ein konkretes Beispiel. Wikidata nimmt langsam Gestalt an. Hat noch keine Gestalt, ist aber immerhin schon eine Vision: Wie sucht […]

  3.   Hofres

    Inkorrekt: Die Änderung der Daten wie Einwohnerzahlen werden schon seit längerer Zeit nicht mehr händisch von Autoren vollzogen. Das erledigen Bots die auf Datenbanken wie etwa Statistkibehörden zurückgreifen. Warum also ein Parallelprojekt schaffen, in dem die Daten zwar frei bearbeitet, aber in letzter Instanz immer von Statistiken stammen, die wie vorher auch erhoben werden? Und: Statistiken wie Einwohnerzahlen sind frei verfügbar. Dieses Projekt ist redundant.

  4.   Patrick Beuth

    Ist das so? Pavel Richter hat mir das Beispiel genannt, auch wenn es es nicht wortwörtlich so gesagt hat. Und ich habe vorhin auch nochmal mit Wikimedia Deutschland gesprochen, da wurde das nicht erwähnt.


  5. @Hofres: Soweit ich es verstanden habe, ist der Sinn dieses Projekts, die Daten in einer für Maschinen leicht lesbaren Form und vor allem an einem zentralen “Sammelplatz” zur Verfügung zu stellen.
    Man könnte zwar auch Parser für Wikipedia-Artikel schreiben, dies ist jedoch mit weitaus mehr Aufwand verbunden, als nur auf eine API zuzugreifen, die von einer darauf spezialisierten Website zur Verfügung gestellt wird.

    Schlussendlich könnten diese Daten z.B. in einem freien, quelloffenen Gegenstück zu WolframAlpha ( http://www.wolframalpha.com/ ) verwendet werden.


  6. Das mit dem Bot und den Einwohnerzahlen funktioniert aber nur in einzelnen Sprachversionen der Wikipedia und nicht in allen.

  7.   Hofres

    Das ist so. Ich habe das als Autor in gewissen Themengebieten der WP selbst mit angestoßen.

  8.   Hofres

    Was aber dann Sache der Sprachversionen ist. Möglich ist es in jeder.


  9. […] ZEIT Data Blog: “Die Einwohnerzahl von Berlin ändert sich ständig. Jedes Jahr, wenn die neuen Zahlen veröff… […]

  10.   Lydia Pintscher

    Die bots gibt es in der Tat. Bei Wikidata soll das ganze aber zentral und für alle einfach zugänglich gemacht werden. Die entstehende Datenbank wird zusätzlich auch noch viel mehr können. Zum Beispiel wird soll es möglich sein basierend auf Daten in Wikidata Listen zu erstellen. Es wird also möglich sein einen Artikel anzulegen die sich immer automatisch aktuell hält. Wir erhoffen uns außerdem, dass andere noch viele coole Sachen auf Wikidata aufbauen an die wir noch gar nicht gedacht haben bisher.

    Cheers
    Lydia (Community Communications for Wikidata)