Offene Daten – offene Gesellschaft

Ein Glossar rund um Open Data

Von 13. Mai 2011 um 16:21 Uhr

Die Idee Open Data ist vergleichsweise jung und werden die Begriffe, die damit verbunden sind, längst nicht von allen gleich interpretiert. Der folgende Artikel ist der Versuch eines Glossars, er will Schlüsselworte rund um Standards, Datenformate und Datenarten auflisten und erläutern.

Überblick der Begriffe des Glossars:

  • Daten
  • Datei
  • Open
  • Open Data
  • Schnittstelle/API
  • Formate
  • Rohdaten
  • Scraper
  • Parser
  • Datensatztypen
  • Open-Data-Güte
  • Open Government
  • Government 2.0
  • ePartizipation

Daten (data – Latein, Plural von Datum) meint gruppierte Informationen; wörtliche Bedeutung: etwas Gegebenes, Gegebenheit.

Datei (im Engl. “file”) ist ein Kunstwort aus Daten und Kartei.

Open - englisch für offen, meint vor allem allgemeine Zugänglichkeit. Mit “Open” wird signalisiert, dass eine kostenfreie Weiternutzung möglich ist (siehe z.B. Open Office); also kein klassisches Copyright mit der Software oder Information verbunden ist. Die Nutzung erfolgt über ein Lizenzmodell wie Creative Commons, das die Bedigungen der Verwendung regelt. Für Open Data gibt es mittlerweile verschiedene Lizenzmodelle, beispielsweise die Open Database License (ODbL).

“Offen” muss nicht “frei” bedeuten, die Nutzung kann eingeschränkt sein und beispielsweise eine kommerzielle Verwendung untersagen. Dagegen sind Werke, die als “Public Domain” gekennzeichnet sind, ein Gemeingut und frei für jeden Zweck nutzbar. Als Faustformel mag gelten: Ist etwas nicht kostenfrei und/oder nicht weiternutzbar und/oder liegt nicht in einem offenen Format vor – dann ist es nicht „open“.

Open Data bezeichnet ein Prinzip oder eine Kultur. Bezieht es sich auf die Veröffentlichung von Datensätzen, meint es strukturierte, maschinenlesbare und gerne über eine offene API/Schnittstelle abrufbare Informationen. Oft wird der Begriff synonym für “Open Government Data” benutzt. Letzteres meint Datensätze aus der öffentlichen Hand (Politik, Verwaltung). Open Data kann aber auch von Wissenschaft, Wirtschaft, Nichtregierungsorganisationen (NGO) oder Privatpersonen praktiziert werden.

In der Regel geht es bei Open Data um nicht-personenbezogene Daten oder zumindest anonymisierte Daten. Ein Open-Data-Angebot lässt sich im Netz vor allem daran erkennen, das es erlaubt, die Rohdaten herunterzuladen oder per Schnittstelle abzufragen.

Schnittstelle, auch API (Application Programming Interface): Eine API erlaubt es anderen Softwareanwendungen, gezielt und automatisiert maschinenlesbare Daten abzufragen. Dank ihr können verschiedene Daten automatisiert miteinander verknüpft und interpretiert werden (mashup) und so neue Informationen generieren.

Formate – Offene Formate sind:

  • Textdateien (.txt), Tabellen als “comma seperated value” (.csv)
  • die erweiterbare Auszeichnungssprache (“extensible markup language” .xml).
  • das Grafikformat “scalable vector graphics” (.svg).
  • leider sehr verbreitet aber gänzlich ungeeignet für Open Data ist das Format .pdf (portable document format). Die dort enthaltenen Informationen lassen sich nur umständlich auslesen.

Exceltabellen ( .xls) sind zwar maschinenlesbar, aber nicht wirklich offen sondern proprietär (siehe Engl: Property = Eigentum). D.h. einer Firma gehört das Format (Microsoft etwa .doc und .xls) und sie belegt dessen Einsatz und Nutzung mit Einschränkungen.

Neben Zahlen, Texten und Bildern (bspw. Kartenmaterial) sind im Zusammenhang mit Open Data noch so genannte Shapefiles (.svg) von Interesse, vor allem im Bereich der Geodaten: z.B. die Umrisse aller Landkreise eines Bundeslandes.

Rohdaten: Grundlage aller Datensätze sind unbearbeiteten Informationen. Die werden entweder unmittelbar – in Echtzeit oder Nachhinhein-  ”roh” veröffentlicht (etwa von einer Messtelle per Schnittstelle/API). Wenn sie im Nachhinein bereinigt und bearbeitet bereitgestellt werden, sind sie nicht mehr “roh” (beispielsweise ein Finanzhaushalt).

Scraper: (Engl: Kratzer, Schaber): Eine Programm, das Daten aus einer Website oder einem Dokument ausliest (scraping). Da derzeit viele Daten noch nicht als Open Data vorliegen, greifen Open-Data-Aktivisten auf diese Methode zurück. In der Regel werden die ausgelesen Dateien dann mit einem Parser bearbeitet. Eine großartige Anlaufstelle zu diesem Thema ist das englischsprachige ScraperWiki.

Parser: Der liest digitale Informationen und zerteilt sie (Lat: pars – teilen); beispielsweise die Ergebnisse eines Scrapers oder die Informationen aus einer XML-Datei. Die erhaltenen Teile werden dann umgewandelt und in eine Tabelle oder andere Strukturen gepackt (“geparsed”).

Datensatztypen:

  • strukturierte Daten: Das sind Datensätze, die klare Bezeichnungen für die einzelnen Spalten der Tabelle einer Datenbank haben (beispielsweise: Name, Typ, Datum, Höhe, Standort usw.) Sie weisen also eine eindeutige Datenstruktur auf und können einfach bearbeitet, sortiert und gefiltert werden.
  • semistrukturierte Daten: Die liegen nicht in Tabellenform vor, sondern sind per Auszeichnung gekennzeichnet und damit ebenfalls einfach automatisiert auslesbar (aber meist auch für den Menschen verständlich). Gängiges Format im Internet ist XML , siehe die Beispielgrafik von Wikipedia rechts.
  • unstrukturierte Daten: Das sind Informationseinheiten wie etwa Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa eingescannte Dokumente ).

Open-Data-Güte:

Tim Berners-Lee, Entwickler des World-wide-web, schlug ein Fünf-Sterne-Modell vor, das den Grad der Offenheit von Datensätzen klassifiziert.

no star Web data Kein Stern – Daten im Web (Format egal), ohne offene Lizenz

one star open Web data Ein Stern – Daten im Web (Format egal) mit offener Lizenz

two star open Web data Zwei Sterne – Daten in strukturiertem Format (z.B. Excel)

three star open Web data Drei Sterne – Daten in strukturiertem, nicht proprietärem Format (z.B. CSV statt Excel)

four star open Web data Vier Sterne – Verwendung von eindeutigen URLs, so dass Datensätze verlinkt werden können

five star open Web data Fünf Sterne – Verlinkung der eigenen Daten mit anderen Daten, um Kontext herzustellen

Open Government (kurz Open Gov): Dieses politische Modell kann ohne Open Data nicht funktionieren. Sein Prinzip ist Transparenz. Open Gov versteht Regierungen als Plattform, an der Bürger per Web andocken können. Erstens um Informationen über Vorgänge zu erhalten (z.B. Gesetzesänderungen). Zweitens um das Handeln von Politikern zu beobachten (monitoring), sei es deren Abstimmungsverhalten oder ihr Bezug von Nebeneinkünften. Drittens ermöglicht Open Gov in seiner idealen Form politische Teilhabe. In dem Sinne, dass Bürger mitentscheiden können und nicht nur unverbindlich beratende Funktion haben.

Die Realisierung von Open Government muss nicht zwangsläufig durch Regierung oder staatliche Stellen geschehen, sondern kann auch von “unten” (Zivilgesellschaft) oder etwa von Medienunternehmen vorangetrieben werden.

Government 2.0 (kurz Gov 2.0): Dieses Prinzip dagegen ist ein Projekt von “oben”, es stammt aus den politischen Apparaten und den Verwaltungen selbst. Es ist Teil der Verwaltungsmodernisierung und Ausdruck eines Dienstleistungsverständnisses. Open Data kann, muss dabei aber keine Rolle spielen: Denn es können Informationen preisgegeben, aber eben auch gezielt zurückgehalten werden. Auch kann der Zugriff zu ihnen beschränkt sein. Etwa indem Gebühren für die Daten verlangt werden. Insofern kann Gov 2.0 nur dann zu Open Gov werden, wenn es versucht, uneingeschränkte Transparenz herzustellen.

ePartizipation: Diese Verfahren sind derzeit nur Teil von Government 2.0  (wirkliches Open Government existiert weltweit noch nicht). Sie meinen elektronische Beteiligung via Internet, beispielsweise Bürgerhaushalte oder die Einreichung von Petitionen über ein Webportal. Derzeit sind die Ergebnisse von ePartizipation in der Regel unverbindlich für die politischen Entscheider. Der Begriff könnte auch Abstimmungen und Wahlen per Netz meinen; jedoch gibt es gegen diese diverse Bedenken aus Datenschutz- und Sicherheitsgründen.

Kategorien: Datenquelle, Datensatz
Leser-Kommentare
  1. 1.

    Nettes Glossar; aber ich stoße mich an der non-commercial Sache: das ist zwar natürlich ne laufende Diskussion, aber mir sind einfach wenig Open Data-Befürworter bekannt, die NC-Daten als “offen” bezeichnen würden (die Open Definition sicher nicht).

    Die Gründe sind vermutlich bekannt: NC ist schwer zu umreissen (Beispiel: die aktuelle GeoBusiness-Lizenz, die schon eine indirekte Profitabsicht, z.B. Werbungszwecke, als kommerzielle Nutzung definiert, ganz zu schweigen von bösartigen Instrumenten wie Flattr-Buttons oder einer Nutzung in Zeitungen und anderen Medien). Wichtiger ist aber der andere Grund: Inkompatibilität. NC bedeutet: ehrenamtliche Open Data-Nutzer können nicht mehr mit denen zusammenarbeiten, die für Geld arbeiten oder die sogar ein Geschäft aufbauen wollen – denn die unterliegen anderen Lizenzbestimmungen, müssen die Daten also auf anderem Weg lizenzieren. Genau diese Form von Zusammenarbeit ist aber doch das Ziel von Open Data.

    Fände es also gut wenn Du das genauer darstellen würdest.

    • 14. Mai 2011 um 13:28 Uhr
    • Friedrich
  2. 2.

    [...] will Schlüsselworte rund um Standards, Datenformate und Datenarten auflisten und erläutern» Ein Glossar rund um Open Data Hier erscheinen von Montag bis Freitag ausgewählte Links zu lesenswerten Texten und aktuellen [...]

  3. 3.

    Die “Open-Data-Güte” entspricht aber nicht ganz dem was Tim Berners-Lee vorschlug. Es ging bei seinen Design Issues auch um Linked Data. Vielleicht sollte man Linked (Open) Data noch mit in das Glossar aufnehmen und dann bei der Güte zwischen Linked Data und Open Data unterscheiden?

    • 18. Mai 2011 um 11:58 Uhr
    • Michael
  4. 4.

    Hinweis: Creative Commons ist nicht Open. Zumindest nicht im Sinne der OKF.

    • 19. Mai 2011 um 16:04 Uhr
    • Radiant
  5. 5.

    Ich würde die ODbL nicht als offene Lizenz bezeichnen, im Gegenteil, als share-alike Lizenz ist sie so ziemlich das Gegenteil von offen. Bei Software kann share-alike durchaus sinnvolle Anwendungen ermöglichen, bei Daten ist die Einschränkung zu gross.
    Der share-alike Gedanke bei Daten steht in grossem Widerspruch zu Datenschutz etc und kann kein erstrebenswertes Ziel sein. Bei Software ist das Ideal hinter share-alike, dass es keinen geschlossenen Code geben soll, bei Daten möchte wohl niemand ernsthaft eine solche extreme Position vertreten (Datenschutz) und verlangen, dass grundsätzlich alle Daten für alle zugänglich sein sollten.
    Zudem besteht grosse Rechtsunsichereit für den Benutzer der Daten.

    • 19. Mai 2011 um 20:04 Uhr
    • marc
  6. 6.

    Fehlt unter “Formate – Offene Formate sind:” nicht .odf – Open document format, welches ja ein ISO Standard ist? -> https://secure.wikimedia.org/wikipedia/de/wiki/OpenDocument

    • 20. Mai 2011 um 13:24 Uhr
    • Andreas
  7. Kommentar zum Thema

    (erforderlich)

    (wird nicht veröffentlicht) (erforderlich)

    (erforderlich)