Ein Glossar rund um Open Data

Die Idee Open Data ist vergleichsweise jung und werden die Begriffe, die damit verbunden sind, längst nicht von allen gleich interpretiert. Der folgende Artikel ist der Versuch eines Glossars, er will Schlüsselworte rund um Standards, Datenformate und Datenarten auflisten und erläutern.

Überblick der Begriffe des Glossars:

Daten

Datei

Open

Open Data

Schnittstelle/API

Formate

Rohdaten

Scraper

Parser

Datensatztypen

Open-Data-Güte

Open Government

Government 2.0

ePartizipation

Daten (data – Latein, Plural von Datum) meint gruppierte Informationen; wörtliche Bedeutung: etwas Gegebenes, Gegebenheit.

Datei (im Engl. „file“) ist ein Kunstwort aus Daten und Kartei.

Open – englisch für offen, meint vor allem allgemeine Zugänglichkeit. Mit „Open“ wird signalisiert, dass eine kostenfreie Weiternutzung möglich ist (siehe z.B. Open Office); also kein klassisches Copyright mit der Software oder Information verbunden ist. Die Nutzung erfolgt über ein Lizenzmodell wie Creative Commons, das die Bedigungen der Verwendung regelt. Für Open Data gibt es mittlerweile verschiedene Lizenzmodelle, beispielsweise die Open Database License (ODbL).

„Offen“ muss nicht „frei“ bedeuten, die Nutzung kann eingeschränkt sein und beispielsweise eine kommerzielle Verwendung untersagen. Dagegen sind Werke, die als „Public Domain“ gekennzeichnet sind, ein Gemeingut und frei für jeden Zweck nutzbar. Als Faustformel mag gelten: Ist etwas nicht kostenfrei und/oder nicht weiternutzbar und/oder liegt nicht in einem offenen Format vor – dann ist es nicht „open“.

Open Data bezeichnet ein Prinzip oder eine Kultur. Bezieht es sich auf die Veröffentlichung von Datensätzen, meint es strukturierte, maschinenlesbare und gerne über eine offene API/Schnittstelle abrufbare Informationen. Oft wird der Begriff synonym für „Open Government Data“ benutzt. Letzteres meint Datensätze aus der öffentlichen Hand (Politik, Verwaltung). Open Data kann aber auch von Wissenschaft, Wirtschaft, Nichtregierungsorganisationen (NGO) oder Privatpersonen praktiziert werden.

In der Regel geht es bei Open Data um nicht-personenbezogene Daten oder zumindest anonymisierte Daten. Ein Open-Data-Angebot lässt sich im Netz vor allem daran erkennen, das es erlaubt, die Rohdaten herunterzuladen oder per Schnittstelle abzufragen.

Schnittstelle, auch API (Application Programming Interface): Eine API erlaubt es anderen Softwareanwendungen, gezielt und automatisiert maschinenlesbare Daten abzufragen. Dank ihr können verschiedene Daten automatisiert miteinander verknüpft und interpretiert werden (mashup) und so neue Informationen generieren.

Formate – Offene Formate sind:

Textdateien (.txt), Tabellen als „comma seperated value“ (.csv)
die erweiterbare Auszeichnungssprache („extensible markup language“ .xml).
das Grafikformat „scalable vector graphics“ (.svg).
leider sehr verbreitet aber gänzlich ungeeignet für Open Data ist das Format .pdf (portable document format). Die dort enthaltenen Informationen lassen sich nur umständlich auslesen.

Exceltabellen ( .xls) sind zwar maschinenlesbar, aber nicht wirklich offen sondern proprietär (siehe Engl: Property = Eigentum). D.h. einer Firma gehört das Format (Microsoft etwa .doc und .xls) und sie belegt dessen Einsatz und Nutzung mit Einschränkungen.

Neben Zahlen, Texten und Bildern (bspw. Kartenmaterial) sind im Zusammenhang mit Open Data noch so genannte Shapefiles (.svg) von Interesse, vor allem im Bereich der Geodaten: z.B. die Umrisse aller Landkreise eines Bundeslandes.

Rohdaten: Grundlage aller Datensätze sind unbearbeiteten Informationen. Die werden entweder unmittelbar – in Echtzeit oder Nachhinhein- „roh“ veröffentlicht (etwa von einer Messtelle per Schnittstelle/API). Wenn sie im Nachhinein bereinigt und bearbeitet bereitgestellt werden, sind sie nicht mehr „roh“ (beispielsweise ein Finanzhaushalt).

Scraper: (Engl: Kratzer, Schaber): Eine Programm, das Daten aus einer Website oder einem Dokument ausliest (scraping). Da derzeit viele Daten noch nicht als Open Data vorliegen, greifen Open-Data-Aktivisten auf diese Methode zurück. In der Regel werden die ausgelesen Dateien dann mit einem Parser bearbeitet. Eine großartige Anlaufstelle zu diesem Thema ist das englischsprachige ScraperWiki.

Parser: Der liest digitale Informationen und zerteilt sie (Lat: pars – teilen); beispielsweise die Ergebnisse eines Scrapers oder die Informationen aus einer XML-Datei. Die erhaltenen Teile werden dann umgewandelt und in eine Tabelle oder andere Strukturen gepackt („geparsed“).

Datensatztypen:

strukturierte Daten: Das sind Datensätze, die klare Bezeichnungen für die einzelnen Spalten der Tabelle einer Datenbank haben (beispielsweise: Name, Typ, Datum, Höhe, Standort usw.) Sie weisen also eine eindeutige Datenstruktur auf und können einfach bearbeitet, sortiert und gefiltert werden.

semistrukturierte Daten: Die liegen nicht in Tabellenform vor, sondern sind per Auszeichnung gekennzeichnet und damit ebenfalls einfach automatisiert auslesbar (aber meist auch für den Menschen verständlich). Gängiges Format im Internet ist XML , siehe die Beispielgrafik von Wikipedia rechts.

unstrukturierte Daten: Das sind Informationseinheiten wie etwa Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa eingescannte Dokumente ).

Open-Data-Güte:

Tim Berners-Lee, Entwickler des World-wide-web, schlug ein Fünf-Sterne-Modell vor, das den Grad der Offenheit von Datensätzen klassifiziert.

Kein Stern – Daten im Web (Format egal), ohne offene Lizenz

Ein Stern – Daten im Web (Format egal) mit offener Lizenz

Zwei Sterne – Daten in strukturiertem Format (z.B. Excel)

Drei Sterne – Daten in strukturiertem, nicht proprietärem Format (z.B. CSV statt Excel)

Vier Sterne – Verwendung von eindeutigen URLs, so dass Datensätze verlinkt werden können

Fünf Sterne – Verlinkung der eigenen Daten mit anderen Daten, um Kontext herzustellen

Open Government (kurz Open Gov): Dieses politische Modell kann ohne Open Data nicht funktionieren. Sein Prinzip ist Transparenz. Open Gov versteht Regierungen als Plattform, an der Bürger per Web andocken können. Erstens um Informationen über Vorgänge zu erhalten (z.B. Gesetzesänderungen). Zweitens um das Handeln von Politikern zu beobachten (monitoring), sei es deren Abstimmungsverhalten oder ihr Bezug von Nebeneinkünften. Drittens ermöglicht Open Gov in seiner idealen Form politische Teilhabe. In dem Sinne, dass Bürger mitentscheiden können und nicht nur unverbindlich beratende Funktion haben.

Die Realisierung von Open Government muss nicht zwangsläufig durch Regierung oder staatliche Stellen geschehen, sondern kann auch von “unten” (Zivilgesellschaft) oder etwa von Medienunternehmen vorangetrieben werden.

Government 2.0 (kurz Gov 2.0): Dieses Prinzip dagegen ist ein Projekt von „oben“, es stammt aus den politischen Apparaten und den Verwaltungen selbst. Es ist Teil der Verwaltungsmodernisierung und Ausdruck eines Dienstleistungsverständnisses. Open Data kann, muss dabei aber keine Rolle spielen: Denn es können Informationen preisgegeben, aber eben auch gezielt zurückgehalten werden. Auch kann der Zugriff zu ihnen beschränkt sein. Etwa indem Gebühren für die Daten verlangt werden. Insofern kann Gov 2.0 nur dann zu Open Gov werden, wenn es versucht, uneingeschränkte Transparenz herzustellen.

ePartizipation: Diese Verfahren sind derzeit nur Teil von Government 2.0 (wirkliches Open Government existiert weltweit noch nicht). Sie meinen elektronische Beteiligung via Internet, beispielsweise Bürgerhaushalte oder die Einreichung von Petitionen über ein Webportal. Derzeit sind die Ergebnisse von ePartizipation in der Regel unverbindlich für die politischen Entscheider. Der Begriff könnte auch Abstimmungen und Wahlen per Netz meinen; jedoch gibt es gegen diese diverse Bedenken aus Datenschutz- und Sicherheitsgründen.