Das Ende der Theorie: Data Driven History

Unter dem großspurigen Titel The End of Theory erklärte Wired-Herausgeber Chris Anderson vor einigen Jahren theoretische Konzepte kurzerhand für überflüssig. Die neuen, nun verfügbaren Datenmengen würden induktive Data-Mining-Verfahren ermöglichen, die nichts anderes wären als die Zukunft wissenschaftlicher Methodologie. Und zwar die einzige. Big Data, das Finden von Mustern in großen Datenbeständen, sei der „direkte Weg zur Wahrheit“.

Bislang ist Andersons Prognose nicht eingetreten, da auch große Datenmengen Modelle brauchen, mit deren Hilfe sie durchsucht werden können. Und da auch bei ihnen bewährte statistische Konstrukte nicht vernachlässigt werden dürfen. So schrieb beispielsweise die Ethnologin Danah Boyd, große Datensätze führten zu falschen Beobachtungen, würden Qualitätskriterien wie die Repräsentativität der Daten missachtet. Zitat: „Bigger Data are Not Always Better Data.“

Trotzdem blieb „Big Data“ in den Naturwissenschaften nicht ohne Wirkung, die Möglichkeiten sind zu faszinierend. Nun hat dieser Gedanke auch die Geisteswissenschaften erreicht. Die rechnerbasierte Verarbeitung großer Datensätze könne revolutionäres Potenzial besitzen, glauben erste Wissenschaftler. Auf der Tagung .hist 2011 – Geschichte im digitalen Wandel hielt der Medienwissenschaftler Theo Röhle von der Universität Paderborn dazu einen anschaulichen Vortrag.

Das Erstaunliche daran: Die Debatte ist alt. In den USA gab es bereits in den 1950er Jahren eine lebhafte Diskussion darum, wie wichtig die Quantifizierung auch in der Geschichtswissenschaft ist. Das Internet nun scheint die klassische Theoriebildung der Historiker auf eine neue Grundlage zu stellen. Beispielsweise durch die Analyse von Worthäufigkeiten in Tageszeitungen. „Data Driven History“ nennt es Röhler und hofft, damit nicht nur über die Moderne mehr zu erfahren, sondern beispielsweise auch über das Mittelalter. Immerhin sind viele Quellen inzwischen in digitaler Form vorhanden.

 

„Interne Daten sind immer noch heilig“

Es gibt zwei bekannte Beispiele für den durchaus erfolgreichen Einsatz von Open Data in der freien Wirtschaft. Aber sie haben kaum Nachfolger gefunden. Open Data ist noch Lichtjahre davon entfernt, ein natürlicher Bestandteil von Open Business zu werden. Was für Städte und Staaten langsam als zukünftige Normalität sichtbar wird – die  Öffnung und Bereitstellung von Daten für neue Anwendungen zur Schaffung neuer Dienste und größerer Transparenz – ist in Wirtschaftsunternehmen noch hochgradig exotisch. Die Ängste sind massiv.

Das glaubt auch Steffen Hück von der Unternehmensberatung 90:10. Er hielt bei der Social Media Week in Berlin einen Vortrag zum Thema Open Business. Im Gespräch am Rande der Konferenz schätzte er die Chancen für Open Data im Kontext von Open Business eher schlecht ein:

Dabei haben einige wenige innovative Ansätze bereits vor Jahren gezeigt, dass neue Strategien auch Profite von Firmen und Konzernen erhöhen können: Die beiden berühmten gewordenen Beispiele sind der Netflixprize und die Goldcorp Challenge. Netflix ist einer der größten Versender von Video-DVDs und gleichzeitig einer der größten Videostreaming-Anbieter der USA. Eines der wichtigsten Verkaufsinstrumente ist das bordeigene Empfehlungssystem. Ähnlich wie bei Amazon, iTunes und anderen Onlinehändlern bietet das Portal dem User mit dem ausgewählten Produkt assoziierte Produkte an. Nachdem die Verkaufszahlen von Netflix jedoch zwischenzeitlich nicht die gewünschte Dynamik zeigten, entschloss sich der DVD-Versender 2009 zu einem ungewöhnlichen Schritt: Netflix veröffentlichte großen Mengen anonymisierter Nutzerdaten. Auf deren Basis sollten freie Programmierer den Empfehlungsalgorithmus um mindestens zehn Prozent verbessern. Als Anreiz wurde der Netflixprize wurde ausgelobt. Er ist mit einer satten Million Dollar dotiert. Vergeben wurde der Preis bisher zwar noch nicht, weil die Zehn-Prozent-Hürde noch nicht genommen wurde. Der Algorithmus aber wurde schon deutlich verbessert.

Das andere Beispiel stammt vom kanadischen Bergbauunternehmen Goldcorp. Im Jahr 2000 schienen sich die Goldfunde für das Unternehmen zu erschöpfen. Es verfügte jedoch über ein gewaltiges Terrain und noch wesentlich gewaltigere Datenmengen. Darunter waren insbesondere Daten über die geologische Beschaffenheit des Terrains inklusive etlicher Bohrbefunde und weiterer Tiefenanalysen. Deshalb entschloss sich das Minenunternehmen, die Daten zu veröffentlichen. Der Erfolg war atemberaubend. Die Crowd wertete die bereitgestellten Daten aus und empfahl über 100 mögliche Orte für weitere Goldfunde. Mehr als die Hälfte dieser Orte waren den Goldcorp-Ingenieuren noch nicht aufgefallen. In der Folge konnte Goldcorp das Areal zu wesentlich günstigeren Konditionen erschließen.

 

Einsichten ins Schweizer Parlament

In Österreich hat die Open Data Bewegung bereits einiges in Bewegung gebracht. Der Open-Data-Katalog der Stadt Wien wurde 2011 wiederholt ausgezeichnet. In Berlin ging unlängst das Open Data Portal data.berlin.de ans Netz. Da wollen auch die Schweizer nicht länger zögern.

Um den Rückstand in Sachen Open Data möglichst rasch aufzuholen, wurde für Ende September 2011 ein erstes Open-Data-Camp in Bern ins Leben gerufen. Unter dem Titel makeopendata.ch rufen Aktivisten zur Konferenz. Das bescheidene Motto:

Das erste Open Data Camp der Schweiz bringt Denker und Macher zusammen, um gemeinsam einen Unterschied zu machen.

Aber während die Aktivisten noch an Vorsätzen feilen und Agenden für Konferenzen entwerfen, veröffentlichte die Orell Füssli Wirtschaftsinformationen AG längst den Parlaments Explorer. Eine geradlinige, mit wenigen Mitteln Transparenz schaffende Visualisierung der Nebentätigkeiten und insbesondere Vorstands- und Aufsichtsratsmitgliedschaften der Schweizer Parlamentarier. Das Besondere dabei, die Nebentätigkeiten können unmittelbar per Klick mit den Nebentätigkeiten anderer Parlamentarier verglichen werden.

So lassen sich plötzlich manche Abstimmungskoalitionen mit ungeahnten Hintergründen erschließen. Ein Werkzeug, dass dem deutschen Pendant Abgeordnetenwatch.de gut stehen würde.

Nachtrag: In einer früheren Version des Textes wurde der Urheber der Grafik versehentlich als Buchhandlung bezeichnet. Die Orell Füssli Wirtschaftsinformationen AG hat mit der gleichnamigen Buchhandlung jedoch nichts zu tun. Wir bitten um Entschuldigung.

 

Globalisierte Offenheit

Ein hehres Ziel, 46 Nationen und ein einfaches Prinzip – das sind die Zutaten der Initiative Open Government Partnership. Sie wurde Mitte September am Rande einer UN-Vollversammlung in New York ins Leben gerufen.

Das hehre Ziel: Offenheit als Prinzip von Regierunghandeln soll weltweit gefördert werden. Open Data ist dabei ein konstituierender Baustein. Der brasilianische Staatsminister Jorge Hage ließ sich mit den Worten zitieren: „Wir wollen das große Ideal der Demokratie voranbringen.“

Der transnationale Ansatz soll Bürgern den Zugang zu Daten, Informationen und Wissen erleichtern. Beispielsweise damit sie im Kampf gegen Korruption aktiver werden können oder die Chance haben, Ideen zu entwickeln, um wirtschaftliche Krisen zu meistern.

Neben Brasilien gehören auch die USA zu den ersten Mitgliedern des globalen Projektes. Eines der zentralen Vorhaben der Regierung von Barack Obama in diesem Kontext soll die Einrichtung einer Online-Petitionsplattform sein. Auch der Schutz von Whistelblowern soll angeblich verbessert werden.

Die Ambitionen des Weißen Hauses für mehr Offenheit haben in den vergangenen Monaten allerdings zahlreiche Dämpfer erlitten. So wurde das Budget für das Open-Data-Portal Data.gov erst kürzlich deutlich gekürzt.

Weitere Länder, die die Gründungsurkunde der Open Government Partnership Initiative unterzeichneten, sind beispielsweise Großbritannien, Norwegen, Spanien oder Schweden. Deutschland ist übrigens nicht dabei.

Es wäre in diesem Zusammenhang auch spannend zu erfahren, wie ein derartiges Portal mit angeschlossener Ideen- und Debattenplattform in Griechenland genutzt würde. Wäre es eine Bühne wüster Regierungsbeschimpfungen, oder könnte die Gesellschaft Ideen und Konzepte entwicklen? Vielleicht fehlt Griechenland für derartige Prozesse derzeit aber auch einfach die Zeit.

 

Weltraum für alle

Der Trend geht wieder zur Marke Eigenbau. Auf Portalen wie Helloetsy oder DaWanda kann man handgemachte Unikate kaufen. Jenseits der Massenware sind Schreibtischlampen aus Heimarbeit, selbstgestrickte Kinderhosen, Geldbörsen aus Recyclingmaterial oder handverzierte Haarspangen die Bestseller. Raketen und Raumschiffe sucht man aktuell noch vergebens. Aber das könnte sich ändern. Denn die Nasa hat auf open.nasa.gov jetzt data.nasa.gov gestartet. Dort kann man unter anderem erfahren, aus welchen Materialien Raketen und Raumschiffe idealerweise gebaut werden sollten.

Die Datenmengen, die die Nasa auf data.nasa.gov ausliefert, sind exorbitant. Allein die Mission Earth Observing System Data and Information System (EOSDIS) hat mittlerweile ein Datenvolumen von drei Petabyte. Das entspricht in etwa der gesamten Datenmenge aller in der amerikanischen Library of Congress gespeicherten Inhalte. Und täglich kommen schlappe vier Terabyte hinzu. Eine weitere Mission, das Solar Dynamics Observatory, produziert täglich mehr als 1,5 Terabyte an Daten. Das sind mal eben knapp 500.000 Songs im MP3-Format.

Um diese Datenmengen erfassbar und einem breiten Publikum zugänglich zu machen, versucht die Nasa die Datensätze nun thematisch zu sortieren. Lagen zahlreiche Datensätze auch bisher auf diversen Nasa-Seiten öffentlich vor, sollen sie durch eine Bündelung im data.nasa.gov-Katalog nun übersichtlicher und zentralisiert aufrufbar sein. In neun Themenbereiche werden die zugänglichen Daten dabei untergliedert. Zu ihnen zählen unter anderem die Bereiche Erdbeobachtung, Aeronautik, Kosmologie, Life Sciences und Engineering.

Bereits 2010 hatte die Nasa im Rahmen der Open Government Initiative diverse Daten auf data.nasa.gov bereit gestellt. Aber erst jetzt können die Schätze systematisch durchsucht werden. An einem Ort. Allerdings sind die Angebote mehr als disparat. So sind manche überhaupt nur nach stundenlanger Recherche zu finden.

Um das Angebot weiterzuentwickeln, bietet data.nasa.gov dem User die Möglichkeit, die Bestände zu kommentieren oder in der Flut entdeckte Daten zu verlinken oder hochzuladen.

Wenn also erste Erfahrungen mit dem Eigenbau von Raumfahrzeugen vorliegen, können sie gerne der Nasa zu weiteren Verwendung übersandt werden.

 

Der Datenhimmel über Berlin

Die maschinenlesbare Stadt, das ist einer der großen Träume der Open Data Bewegung. Denn Städte speichern gewaltige Datenschätze. In Berlin wurde heute ein erster Schritt in diese Richtung unternommen. Seit einigen Stunden ist data.berlin.de online.

18 Datensätzen gehören zur Startausstattung des neuen Portals, das für politische Verhältnisse geradezu in Überschallgeschwindigkeit Realität wurde. Denn es ist erst ein Jahr her, dass die Initiatoren, unter ihnen Daniel Dietrich vom Open Data Network Berlin und Julia Witt von der Senatsverwaltung für Wirtschaft, Technologie und Frauen, beschlossen, nicht nur Ideen zu diskutieren, sondern die konkrete Umsetzung zu wagen.

Die Realisierung so kurz vor den Berliner Wahlen ist bemerkenswert, denn das Thema Open Data war für etliche Politiker vor wenigen Monaten noch eine Black Box. Mittlerweile aber ragen die Fragen nach dem digitalen Staat in nahezu alle Bereiche der öffentlichen Verwaltung. Dass das Thema auch auf der Agenda nahezu aller Parteien im Finale des Berliner Wahlkampfes auftaucht, zeigte gerade erst Lorenz Matzat bei der Auswertung der Wahlprüfsteine für die Interessenvertretung Digitale Gesellschaft. Bis auf die CDU beschäftigen sich alle mit der Frage nach der Umsetzung der maschinenlesbaren Stadt.

Den Mehrwert eines adäquaten Open-Data-Angebots für Städte und ihre Bewohner demonstriert die österreichische Hauptstadt Wien seit einiger Zeit. Auf data.wie.gv.at bietet sie zahlreiche Datensätze an, die mittlerweile zur Umsetzung vieler hilfreicher Applikationen geführt haben (die Toilet Vienna Map als Augmented Reality App ist dabei natürlich ein herausragendes Beispiel). Für die Breite des Angebots wurde der Open-Data-Katalog der Stadt gerade erst mit dem Preis des eGovernment Wettbewerb 2011 Deutschland, Österreich, Schweiz“ prämiert.

Dass data.berlin.de jetzt in Deutschland ans Netz geht, ist in jedem Fall ein Anfang. Auch wenn es gleichzeitig viel Kritik gab. Auf heise.de kritisierte der Open-Data-Entwickler Stefan Wehrmeyer beispielsweise den Umstand, dass nicht alle Datensätze unter einheitlichen CC-Lizenzen erscheinen. Auch die Tatsache, dass einige Datensätze nicht maschinenlesbar sind, wurde bemängelt.

Dennoch muss eines hervorgehoben werden, mit data.berlin.de ist Berlin das erste Bundesland mit einem eigenen Open-Data-Projekt im Netz.

 

„Viele hadern noch mit der Idee Open Data“

Der Begriff Open Data hat eine steile Karriere hinter sich. Vor wenigen Jahren konnten höchstens Insider etwas mit der verheißungsvollen Begriffskombination aus „offen“ und „Daten“ anfangen. Heute sieht das anders aus. Die Bereitstellung von Daten, die beispielsweise von öffentlichen Stellen erhoben wurden, könnte zu neuen Anwendungen führen. Der vielfach geforderte „maschinenlesbare“ Staat würde transparenter und bürgerfreundlicher. So wären zum Beispiel Anwendungen denkbar, die Geldflüsse aus Haushaltsmitteln veranschaulichen.

Aus diesen Gründen interessieren sich auch mittlerweile Kommunen und Unternehmen für das Feld. Selbst in den aktuellen Wahlkämpfen taucht das Thema an der Peripherie auf. Aber wo steht die noch immer junge Open-Data-Bewegung? Welche Perspektiven bieten sich ihr? Und was sind ihre größten Herausforderungen, gerade in Deutschland? Das sind die Themen eines Interviews mit Lorenz Matzat. Seit Oktober 2010 schrieb er im Open-Data-Blog. Jetzt zieht er Bilanz. Denn Lorenz Matzat geht von Bord. Neue Projekte stehen auf seiner Agenda.

Das Interview führte Markus Heidmeier, Autor des Leaks-Blogs hier auf ZEIT ONLINE. Nach dem Abgang von Matzat werden das Leaks-Blog und das Open-Data-Blog im Data-Blog vereint. In ihm wird es künftig um das gesamte Spektrum gehen – von Open Data bis Datenjournalismus.

Markus Heidmeier: Springen wir mal ein paar Jahre zurück. Wie bist Du eigentlich mit dem Thema Open-Data und Datenjournalismus in Berührung gekommen?

Lorenz Matzat: Mit einigen Kollegen habe ich 2009 das Projekt wahlversprechen.info umgesetzt. Eine Plattform, auf der die Zuverlässigkeit von Wahlkampfaussagen beobachtet werden kann, Stichwort Crowdsourcing. In dem Zusammenhang verfolgten wir Barack Obamas Wahlkampf in den USA bei dem die Themen Open Data und Open Government eine Rolle spielten. Ende 2009 gründeten wir dann den Verein Open-Data-Network. Zu diesem Zeitpunkt stieß ich dann auch auf das Datablog des Guardian, das seit Frühjahr 2009 läuft.

Heidmeier: Welche Bedeutung hast Du dem anfangs beigemessen, beziehungsweise welche Erfolgschancen hast Du anfangs für Open-Data Konzepte gesehen? Welche Erwartungen waren mit der Bewegung am Anfang verknüpft?

Matzat: Es war naive Euphorie dabei. Es war alles noch sehr unkonkret und abstrakt. Ein Punkt war aber bereits klar zu erkennen: Hier steckt ein enormes gesellschaftliches, mediales aber auch unternehmerisches Potential. Endlich lässt sich mal etwas Sinnvolles mit dem Internet anfangen jenseits von Shopping und schnellem Informationsaustausch.

Weiter„„Viele hadern noch mit der Idee Open Data““