Offene Daten – offene Gesellschaft

Autoren Archiv von Kai Biermann

Wo Amerikaner hassen

Von 13. Mai 2013 um 12:23 Uhr
Hate Map - Verteilung von homophoben Tweets zwischen Juni 2012 und April 2013 in den USA

Hate Map – Verteilung von homophoben Tweets zwischen Juni 2012 und April 2013 in den USA

Islamistischer Terrorismus ist nicht der einzige, den die USA fürchten. Mindestens ebenso bedrohlich sind sogenannte Hate Groups, religiöse und rechte Gruppierungen, die sich als Patrioten betrachten und deren Ziel es ist, den amerikanischen Staat und alles, was ihnen fremd erscheint, zu bekämpfen. Ihre Zahl ist in den vergangenen zehn Jahren stark gestiegen, als Barack Obama 2009 Präsident wurde, stieg die Zahl noch einmal stärker.

Eine auf Twitter basierende Studie zeigt nun, wie sich homophobe, rassistische und beleidigende Äußerungen gegenüber Menschen mit Behinderungen in den USA verteilen. Die Daten können zumindest ein Indiz dafür sein, wo solche Organisationen aktiv sind.

Die Forschergruppe, die die Karte erstellt hat, nennt sich Floating Sheep. Es sind fünf Geographen, die an verschiedenen Universitäten in den USA und in Großbritannien arbeiten und die sich immer wieder die Verteilung diverser Phänomenen anschauen und visualisieren.

Weiter…

Bockige Behörden – eine Geschichte auf drei Ebenen

Von 18. April 2013 um 10:10 Uhr

Seit sieben Jahren gilt das Informationsfreiheitsgesetz (IFG), das jedem Bürger das Recht gibt, Akten von Behörden zu sehen und zu erfahren, was die Verwaltung so treibt. Doch noch immer tun sich Ämter schwer damit, Informationen und Daten herauszugeben, sie mauern und tricksen.

ZEIT ONLINE und ZEIT erzählen die Geschichte dieser Blockade auf verschiedenen Wegen. Mit einem Text in der Zeitung und einer längeren Fassung Online und mit einem Interview mit dem Bundesbeauftragten für Informationsfreiheit Peter Schaar. Die Daten, die die Grundlage der Geschichte sind, haben wir außerdem in einer interaktiven Grafik aufbereitet.

Martina Schories hat seitenweise Exceltabellen analysiert und zusammen mit Paul Blickle eine Grafik entworfen, dank der man sich schnell einen Überblick darüber verschaffen kann, welches Ministerium besonders hohe Gebühren verlangt, oder welches viele Anfragen ablehnt. Basis sind Informationen des Bundesinnenministeriums, die auf der dortigen Website jährlich veröffentlicht werden (Hier zum Beispiel aus dem Jahr 2012). Sämtliche von uns verwendeten Daten haben wir hier in einem Google Spreadsheet gesammelt.

Die Programmierung der Grafik übernahmen Stefan Wehrmeyer und Michael Hörz. Beide betreuen die Seite “Frag den Staat”, über die jeder IFG-Anfragen stellen und an Behörden schicken kann. Mit der Materie sind sie also mehr als vertraut.

Neben Text und Grafik gibt es noch eine dritte Ebene. Über unseren anonymen Briefkasten hatte uns ein Leser oder eine Leserin interne Protokolle des Innenministeriums zukommen lassen.

Im BMI trifft sich mindestens zwei Mal im Jahr eine Arbeitsgruppe, um zu beraten, wie mit dem IFG, mit einzelnen Anfragen und mit Gerichtsurteilen zu dem Thema umgegangen werden soll. Die Sitzungen werden stichpunktartig festgehalten. Das PDF-Dokument (das Innenministerium hat uns die Echtheit bestätigt), ist 142 Seiten lang und enthält die Protokolle der Treffen von Januar 2006 bis April 2012. In den Protokollen finden sich viele Andeutungen und Hinweise darauf, wie schwer sich die Ämter mit dem Gesetz und den Informationsforderungen der Bürger tun.

Damit jeder unsere Erkenntnisse nachvollziehen kann, veröffentlichen wir die Protokolle hier im Original. Geschwärzt wurden aufgrund des Persönlichkeitsschutzes lediglich die Namen. Dafür haben wir die Recherche-Plattform DocumentCloud gewählt, auf der Redaktionen namhafter amerikanischer Medien Originaldokumente zur Verfügung stellen. Inzwischen sind dort Millionen Dokumente versammelt. Jedes wird von einer Texterfassungssoftware gescannt. So kann jeder PDFs wie die IFG-Protokolle nach Schlagworten durchsuchen und Kommentare hinzufügen.

ZEIT ONLINE und die Investigativ-Redaktion der ZEIT sind die ersten beiden offiziellen Partner der Plattform in Deutschland. Und die IFG-Protokolle sind das erste Projekt; künftig werden es mehr werden. Schon bald will die Vereinigung Investigative Reporters and Editors (IRE), die DocumentCloud betreibt, eine deutschsprachige Version anbieten. Noch versteht die Texterkennung keine deutschen Umlaute, aber das soll sich ändern.

Fragen und Anregungen gern an einen der drei Autoren: Kai Biermann, Martin Kotynek und Sascha Venohr, der als Head of Data Journalism die drei Ebenen koordiniert hat.

Kategorien: Datenjournalismus

Google veröffentlicht Karten von Nordkorea

Von 29. Januar 2013 um 16:12 Uhr
Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Im Programm Google Earth, das Satellitenbilder der Welt sammelt, war Nordkorea schon lange kein weißer Fleck mehr. Seit Jahren gibt es ein Projekt, das versucht, mehr Informationen über das abgeschottete Land zu sammeln und bei Google Earth einzustellen. Nun sind solche Informationen auch bei Google Maps zu sehen, wo Nordkorea bislang noch terra incognita war.

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Seit Dienstag bietet Google Maps ein vergleichsweise detailliertes Bild des kommunistischen Landes. Gebäude, Straßen, Gulags – was bislang nur in der Software zum Herunterladen zu sehen war, ist nun auch in der Kartenanwendung sichtbar. Dort sind die Bilder zusätzlich mit Straßennamen versehen, oft auf Koreanisch, manchmal aber auch auf Englisch.

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Die Daten sind eine Mischung aus den üblichen Satellitenbildern und Informationen, die Nutzer beigetragen haben. Google bietet ein Programm, mit dessen Hilfe jeder die Karten aktualisieren kann.

Die Schwierigkeit ist, zu bewerten, ob die Daten korrekt sind. Schließlich gibt es keine offiziellen Karten Nordkoreas, mit denen die Angaben verglichen werden könnten. Die Software arbeitet daher so ähnlich wie die Wikipedia – Daten, die ein Nutzer einstellt, können von anderen korrigiert werden. Je mehr bei solchen Projekten mitmachen, desto besser ist die Qualität der gesamten Daten. Im Fall Nordkorea ist das durchaus ein Problem, nicht viele Menschen haben Gelegenheit, das Land zu besuchen.

Im Firmenblog der Kartenanwendung heißt es: “We know this map is not perfect.” Man wisse, dass die Karte nicht perfekt sei, aber jeder sei aufgerufen, sie besser zu machen, um Daten für alle bereitzustellen.

Karten seien wichtig, damit Menschen neue, ihnen unbekannte Regionen der Welt kennenlernen könnten, heißt es in dem Blogpost. Nordkorea war die bislang wohl unbekannteste Region. Bei Google Maps zumindest war es das letzte unkartographierte Land.

Nordkoreanern selbst wird das nichts nützen, normale Bürger haben dort keinen Zugang zum Internet, schon gar nicht mobil. Google schreibt, die Daten seien vor allem für Südkoreaner interessant, die Verwandte im Norden haben.

Kategorien: Datenquelle

Ja, wo twittern sie denn?

Von 11. Januar 2013 um 17:10 Uhr
Tweets über Manchester United (rot) und Manchester City (blau)

Tweets über Manchester United (rot) und Manchester City (blau)

Wo sind die wahren Fans von ManU? Oder die von Arsenal? Ist Manchester City wirklich der beliebteste Club in der Region von Manchester, oder ist es nicht doch eher Manchester United? Wissenschaftler am Oxford Internet Institute haben Tweets ausgewertet, um darüber eine Aussage treffen zu können.

Dazu analysierten sie alle Tweets, die zwischen dem 18. August und dem 19. Dezember 2012 versendet wurden und die sich einer Geokoordinate zuordnen ließen, weil der Twitterer das eingestellt hatte. Gesucht wurden Botschaften, die sich mit einem der Clubs der britischen Premier League beschäftigten. Anschließend wurden sie nach Postleitzahlen sortiert. Auf der daraus erstellten interaktiven Karte ist zu sehen, in welchen Postleitzahlenbereichen Botschaften zu welchem Club überwogen.

Auch haben sie klassische Rivalitäten visualisiert, wie eben die zwischen ManU und Manchester City. Oder die zwischen Arsenal und Tottenham.

Und so ist man offensichtlich im Westen von Manchester eher für ManU und im Osten eher für Manchester City. Die Forscher schreiben: “In Manchester gibt es das oft zitierte Stereotyp, Manchester City seien die wahren Lokalhelden, Manchester United werde eher von Leuten unterstützt, die woanders lebten. Unsere Karte unterstützt diese Sicht nicht unbedingt. Es gibt nur wenige Orte in der Region, wo Manchester City signifikant häufiger in Tweets erwähnt wurde als ihr Rivale. Seltsamerweise sehen wir in Schottland und Merseyside mehr Unterstützung für Manchester City, und in Nordirland mehr für Manchester United.”

Das mag wie eine Spielerei wirken. Doch es belegt, dass Twitter dazu dienen kann, ein Stimmungsbild zu zeigen. Zumindest ein ungefähres. Denn die Stimmungsanalyse von Tweets ist nicht so einfach. Der Algorithmus muss erkennen, ob der Text wirklich einen Verein unterstüzt, oder sich nur über ihn lustig macht. Daher schreiben die Wissenschaftler auch, dass ihre Daten unsauber sind. Trotzdem sind sie überzeugt, dass sich so Mythen widerlegen und Einsichten gewinnen lassen.

Kategorien: Datenvisualisierung

Punkte, Linien, Listen

Von 29. November 2012 um 13:46 Uhr

Verteilung des Wortes "Computer" in Texten von ZEIT und ZEIT ONLINE zwischen 1950 und 2012 Quelle: http://impactdevelopment.de/labs/zeit-online-api-demo/

Seit einer Woche ist unsere Text-Schnittstelle online und inzwischen gibt es eine ganze Reihe von Ideen, was sich mit dieser API und den dahinter liegenden Daten anstellen lässt. Einige sind so schön, dass wir sie etwas ausführlicher vorstellen wollen.

In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am naheliegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt.

Thomas Pfeiffer (@codeispoetry) von den Webevangelisten hat eine Seite gebaut, die eine Häufigkeitskurve ausgibt. Welche Begriffe sie anzeigen soll, bestimmt der Nutzer. Genau wie den Zeitraum, der untersucht werden soll. Wer will, kann mehrere Wörter gegeneinander laufen lassen, sie werden in der Eingabe dann mit Komma getrennt.

Hier zum Beispiel “Helmut Kohl” gegen “Angela Merkel”:

Häufigkeit der Ausdrücke "Helmut Kohl" und "Angela Merkel" im Textarchiv von 1946 bis 2012. Quelle: http://webevangelisten.de/zeitapi/

Und, weil es so schön ist, hier noch ein Vergleich, “Apple” gegen “Microsoft”:

Häufigkeit der Begriffe "Apple" und "Microsoft" von 2008 bis 2012. Quelle: http://webevangelisten.de/zeitapi/?q=Apple%2C+Microsoft&s=2008&e=2012

Die gleiche Idee hatten die beiden Webentwickler von Impactdevelopment. Ihre Seite ermittelt ebenfalls Worthäufigkeiten, wirft jedoch eine Punktwolke aus.

Das Beispiel im Bild oben stammt von ihnen, es ist die Häufigkeit des Ausdruck “Computer”. Der erlebte demnach ganz offensichtlich zwischen Mitte der Achtziger und Mitte der Neunziger einen ersten Höhepunkt und ist seit 2008 geradezu inflationär.

Praktischerweise lässt sich nicht nur die Wort-Menge erfassen. Wer auf einen der Punkte klickt, erhält eine Übersicht mit den entsprechenden Artikeln samt Überschrift, Vorspann und Link. Außerdem kann die Grafik über einen Menüknopf als JPG, PNG, PDF und SVG heruntergeladen werden. Leider gibt es aber keinen Permanentlink zu den Suchergebnissen. Und werden mehrere Begriffe in das Suchfeld eingegeben, sucht die Maske nach Texten, in denen sie gemeinsam vorkommen. Gegeneinander laufen lassen kann man sie nicht.

Mila Frerichs analysiert mit seinem Werkzeug allein die Häufigkeit von politischen Parteien im Textkorpus. Nach Monat und Jahr sortiert wird ihr Auftauchen in Texten als Kurve angezeigt. Die dazu gehörenden Artikel gibt es unter der Grafik mit Überschrift, Vorspann und Link.

Zahl der Texte pro Monat und Jahr, die sich mit einer Partei befassen. Quelle: http://zeitparteien.herokuapp.com/

Das klappt prima, solange es nicht um die Piraten geht. Die tauchen schon lange vor der Parteigründung 2006 in Texten auf, im klassischen Zusammenhang. Die Abfrage unterscheidet jedoch nicht zwischen Seeräubern und Politikern.

Interessant ist die Jahresübersicht. So wurden 2010 und 2011 vor allem CDU und FDP in Artikeln erwähnt, 2012 hingegen führt die SPD in vielen Monaten die Erwähnungsliste an.

Die Häufigkeit von Städten und Ländern hat Newstral ausgewertet. Auf einer Weltkarte wird dargestellt, aus welchen Regionen wie viele Nachrichten berichten. Erfasst sind die Jahre 2010 bis 2012.

Nennung von Städten und Ländern in Texten von ZEIT und ZEIT ONLINE. Quelle: http://newstral.com/de/maps/

Die Karte vermittelt einen ganz guten Überblick, wo die Schwerpunkte der Berichterstattung liegen, es sind offensichtlich Deutschland und die USA. In Afrika wird es eher dünn.

Es gibt bereits einige Werkzeuge mehr, die die Schnittstelle nutzen.

Ein hinreißende Idee hatte Stefan Wehrmeyer, der die Seite Frag den Staat! betreibt. Er baut aus den Archivtexten ein Spiel. Drei Begriffe aus einem beliebigen Text müssen in einer Buchstabenmatrix wiedergefunden werden. Leider ist das Programm fehlerhaft, manchmal versteckt es nur zwei Begriffe in der zufällig erzeugten Matrix, manchmal fünf – wobei sich dann nicht alle korrekt markieren lassen.

Wortsuche in der Buchstaben-Matrix, basierend auf Artikeln. Quelle: http://stefanwehrmeyer.com/projects/zeitwort/

Trotzdem ist es ein Beispiel, das demonstriert, welche Möglichkeiten in einer offenen Schnittstelle stecken. Nun fehlen noch Anwendungen, die versuchen, verschiedene Aspekte miteinander zu verknüpfen. Also beispielsweise zeitliche oder inhaltliche Zusammenhänge. Wie viele Berichte gibt es zu Flugzeugabstürzen, und sind es mehr oder weniger als zu Zugunglücken? Spannend wäre sicher auch eine sogenannte Sentiment Analyse: Sind Texte über Angela Merkel eher positiv oder eher negativ?

Kategorien: Datenvisualisierung

ZEIT ONLINE startet eine Text-API

Von 23. November 2012 um 14:03 Uhr

Namen, die in Texten von Zeit und Zeit Online vorkommen, sortiert nach ihrer Häufigkeit

ZEIT ONLINE hat ab sofort eine Content-API. Klingt langweilig? Nun, es kommt sehr darauf an, was andere daraus machen. Eine API ist ein Zugang, eine Möglichkeit, bestimmte Informationen automatisiert abzufragen. Auf der Seite http://developer.zeit.de/ findet sich nun eine solche API und sie ist der Zugang zu allen Texten, die in der ZEIT (seit 1946) und bei ZEIT ONLINE (seit 1996) erschienen sind.

Dank dieser Schnittstelle kann nun jeder alle Texte mit Hilfe von Programmen durchsuchen und analysieren. Eine REST-API gibt Metadaten wie Autor, Kategorien oder Schlagworte aus. In der Beta-Version der API ist es aus rechtlichen Gründen leider nicht möglich, auch den Volltext auszugeben und zu speichern. Aber wer ein Projekt plant, für das die Übernahme des Volltextes von Artikeln nötig ist, kann unter api@zeit.de jederzeit Kontakt aufnehmen.

Warum tun wir das? Wir glauben, dass in den hunderttausenden Artikeln noch viele spannende Informationen verborgen sind. Örtliche oder inhaltliche Zusammenhänge, Zeitbezüge – durch eine Verknüpfung können Dinge sichtbar werden, die beim einfachen Lesen nicht unbedingt zutage treten.

Beispielsweise durch Visualisierungen. Oder durch Langzeitbeobachtungen. Wie oft tauchte der Begriff “China” in den vergangenen 66 Jahren in unseren Texten auf? Und in welchen Zusammenhängen? Wie hat sich also das China-Bild der Redaktion und vielleicht also auch das deutsche China-Bild in dieser Zeit gewandelt?

Die automatisierte Abfrage stellt die Technik bereit, um solche Informationen finden zu können. Nun braucht es nur noch Fragen.

Anwendungen und Visualisierungen, die aus der Arbeit mit der API entstehen, sammeln wir auf dieser Seite. (Nachtrag: Was natürlich bedeutet, dass wir uns über jeden freuen, der uns das Ergebnis seiner Arbeit zeigt.)

Die Bedingungen, unter denen die Nutzung der Schnittstelle möglich ist, finden Sie hier.

Informationen über die weitere Arbeit an der API finden sich nebenan, im Entwicklerblog von ZEIT ONLINE.

Kategorien: Datenquelle

Open Knowlege Foundation macht Entwicklungshilfe transparenter

Von 1. Oktober 2012 um 17:55 Uhr

Ausgaben der deutschen Entwicklungshilfe / Screenshot von http://www.offene-entwicklungshilfe.de/

Wohin geht das Geld? Diese Frage können Daten-Visualisierungen meist schnell beantworten – denn das ist ihre Stärke: einen Überblick über komplexe Zusammenhänge geben. Die Open Knowledge Foundation hat sich genau deswegen der Ausgaben der deutschen Entwicklungshilfe angenommen und diese in einer interaktiven Grafik aufgeschlüsselt.

Demnach hat Deutschland in den vergangenen zehn Jahren die Länder Irak, China, Nigeria, Kamerun und Indien am stärksten gefördert, in dieser Reihenfolge. Das Geld geht also vor allem an Schwellenländer. Der größte Teil der deutschen Entwicklungshilfe weltweit wird außerdem für den Schuldenerlass aufgewendet – also nicht überwiesen, um konkrete Projekte zu fördern, sondern nur auf dem Papier gestrichen.

Beide Ergebnisse lassen sich sofort erfassen, betrachtet man die Grafiken, die die Open Knowledge Foundation Deutschland am Montag veröffentlicht hat.

Wer zahlt wo was?

Erstellt hat die Seite Christian Kreutz. Er ist im Vorstand der Open Knowledge Foundation und arbeitet in der Entwicklungshilfe. “Man weiß in diesem Bereich oft gar nicht, wer schon wo was gefördert hat”, sagt er. Es gebe keinen internationalen Überblick und nicht einmal einen nationalen. Seine Grafik könnte helfen, hofft er.

Denn die zeigt nicht nur bunt eingefärbte Länder. Sie schlüsselt auch genau auf, in welchem Bereich für welches Vorhaben wie viele Dollar ausgegeben wurden. “Wir wollen, dass man sich schnell durch die Daten bewegen kann”, sagt Kreutz. Die offiziellen Berichte, die solche Aufstellungen in Form langer Listen veröffentlichen, seien zu unübersichtlich.

Die Daten dafür stammen von der OECD. Sie sind inflationsbereinigt, allerdings in einigen Fällen nicht vollständig. So würden Informationen von Ländern, die nicht mehr als Entwicklungsland zählen, in der Datenbank der OECD rückwirkend entfernt.

Die OECD hat eine eigene Datenbankseite, auf der die Informationen eingesehen werden können. Allerdings ist Aidflows.org nicht sonderlich übersichtlich. Das größte Problem beim Erstellen von offene Entwicklungshilfe sei denn auch gewesen, die OECD-Daten zu verstehen, sagt Kreutz.

Bitte nachahmen!

Ein nicht zu unterschätzender Effekt solcher Projekte ist der Druck auf die Urheber der Daten. Seit ziemlich genau zwei Jahren gibt es die Seite offener Haushalt, auf der die Open Knowledge Foundation den Bundeshaushalt transparent macht und übersichtlich aufschlüsselt. Inzwischen sah sich das Finanzministerium anscheinend genötigt, nachzuziehen. Seit August dieses Jahres gibt es die Haushaltszahlen in einem Format heraus, das digital weiterverarbeitet werden kann. Auch eine Visualisierung hat das Ministerium eingeführt.

Das Ministerium habe sich dabei offensichtlich von der Seite offener Haushalt inspirieren lassen, wie der Datenjournalist Lorenz Matzat bei Netzpolitik schrieb. Vielleicht lässt sich das Entwicklungshilfeministerium ja von dem neuen Projekt inspirieren.

Update: Wahrgenommen hat das Ministerium das Projekt.

Fliegende Augen für Journalisten

Von 28. September 2012 um 14:17 Uhr

Nach einem Hurrikan liegt überall Schutt, vieles ist zerstört, es herrscht vor allem Verwirrung. Ein Journalist, der durch eine solche Gegend irrt, hat kaum eine Chance, sich ein Bild von der Lage zu machen und wird sich schwer tun, die Orte und Menschen zu identifizieren, die ihm bei der Recherche helfen. Er muss sich auf sein Glück verlassen.

In einem solchen Szenario könnten Drohnen helfen. Denn der Blick aus fünfzig oder hundert Metern Höhe offenbart das umfassendere Bild, er zeigt Muster und im Zweifel auch den Weg zur nächsten Sammelstelle, an der sich Menschen finden, die etwas über die Katastrophe erzählen können.

Seit Drohnen auf dem Weg sind, eine alltägliche Technik zu werden, denken auch Journalisten darüber nach, wie diese ihnen bei der Arbeit helfen können. Das iPad-Magazin The Daily beispielsweise flog 2011 mit einem Quadrocopter den überfluteten Mississippi ab und stellte die Videos ins Netz.

Auch der amerikanische Sender ABC News testete solche Gefährte. Bislang sind das alles nur Experimente. Unsinnig aber sind sie nicht. Matt Waite baut gerade das Drone Journalism Lab an der Universität Nebraska auf, um genau solche Anwendungen zu erforschen. Er sieht noch viel mehr Szenarien, wie er im Interview mit ZEIT ONLINE erzählt.

Beispiel Fukushima: Drohnen könnten ohne Risiko für einen Piloten nicht nur Fotos und Videos liefern, sondern auch billige Sensoren rund um ein havariertes Atomkraftwerk abwerfen, sagt er, die dann Daten senden. Die mit den ferngesteuerten oder autonomen Fluggeräten gemachten Bilder könnten verwendet werden, um schnell Karten von Zerstörungen zu entwerfen und zu veröffentlichen.

Mit den Spielzeugen, die es derzeit für ein paar hundert Euro gibt und die sich mit einem iPad oder einem iPhone steuern lassen, geht das nicht. Die taugen vor allem, um die Möglichkeiten zu erahnen. The Daily zu Beispiel nutzte ein Gerät namens md4-1000 von Microdrones, das auch bei der Polizei und der Feuerwehr eingesetzt wird. Ein Spielzeug ist das nicht mehr, der Copter kann länger als anderthalb Stunden in der Luft bleiben, vorher programmierte Wegpunkte abfliegen, diverse Sensoren tragen und kostet “ab 40.000 Euro”.

Noch überwiegen beim Thema Drohnen die Befürchtungen. Vor allem die davor, dass es mit ihnen nun noch mehr Möglichkeiten gibt, unbemerkt in die Privatsphäre anderer einzudringen. Die sind sicher nicht unbegründet, allerdings gibt es längst Gesetze, die das verbieten.

Wichtiger scheint, wenn es um Sicherheit geht, ein anderer Aspekt: Die Köpfe von Unbeteiligten. Professionelle Drohnen hätten so kräftige Luftschrauben, das sie fliegenden Rasenmähern ähnelten, sagt Waite. Auch sei die Technik noch nicht ausgereift und Abstürze gar nicht so selten. Über Menschen hinweg zu fliegen, sei daher keine gute Idee.

Unter anderem deswegen beschäftigt sich auch die amerikanische Luftfahrtaufsicht FAA mit den Drohnenflügen des Magazins The Daily.

Die Bahn gibt ihre Daten lieber Google statt allen

Von 17. September 2012 um 17:12 Uhr

Zweiter Test: Fernverkehr der Deutschen Bahn from Michael Kreil on Vimeo.

Die Deutsche Bahn fährt nach einem Fahrplan, der an jedem Bahnhof aushängt, der auf diversen Websites angezeigt wird und den jeder über die offizielle Bahn-App auf seinem Smartphone einsehen kann. Alles gut, könnte man denken. Doch um wirklich von Nutzen zu sein, wäre es sinnvoll, wenn diese Fahrplandaten in einem maschinenlesbaren Format von jedem heruntergeladen werden könnten.

Dann könnte jeder darüber nachdenken, wie sich vielleicht noch bessere Fahrplan-Anwendungen bauen ließen. So clever die Bahn auch sein mag, in der Masse der Menschen gibt es garantiert immer noch einen, der noch cleverer ist. Und der etwas erdenkt, was vielen Bahnkunden nützten könnte.

Dieses Prinzip – open data genannt – haben viele Institutionen längst verinnerlicht. Die Bundesregierung beispielsweise testet deswegen ein Portal für viele, viele statistische Daten und Regierungsinformationen.

Die Deutsche Bahn jedoch mag diesen Vorteil nicht erkennen. Sie gibt ihre Daten nicht an Jedermann. Man wolle sich aussuchen, mit wem man zusammenarbeite, zitiert Spiegel Online einen Sprecher des Unternehmens. Sonst leide womöglich die Qualität.

Das Unternehmen, dem die Bahn vertraut, ist Google. Google Transit heißt das Produkt, das der Konzern aus solchen Kooperationen baut. Außerdem sind die Fahrpläne nun in die Anwendung Google Maps integriert.

Nach Meinung erster Tester beispielsweise bei Basic Thinking ist das aber nicht besonders gut gelungen. Zitat: “Nicht enthalten sind allerdings eben jene Daten des Nahverkehrs: U-Bahn, Straßenbahn und Bus. Google Transit schickt euch im Innenstadtbereich deswegen nur von Bahnhof zu Bahnhof und lässt euch kilometerweit zu Fuß laufen.”

Würden die Daten jedem zur Verfügung stehen, hätte Google sie trotzdem in sein Produkt einbauen und damit Geld verdienen können. Gleichzeitig aber wären sie für freie Entwickler eine Quelle gewesen, um eigene Ideen und vielleicht Produkte zu verwirklichen. Nicht umsonst gelten offene Daten als wirtschaftlicher Faktor.

Und solche freien Entwickler gibt es viele. Michael Kreil (der unter anderem an der Grafik über Vorratsdaten bei ZEIT ONLINE beteiligt war), hat mit dem Zugmonitor bewiesen, dass sich aus Fahrplandaten interessante und nützliche Anwendungen bauen lassen. Er glaubt ganz offensichtlich an die kreative Macht der Masse und hat die Fahrplandaten der Bahn von deren Websites geklaubt und auf einem eigenen Portal veröffentlicht, wo jeder sie herunterladen kann.

Damit dürfte bald ein Vergleich möglich sein, wer die besseren Anwendungen baut, die Bahn, Google oder irgendein freier Entwickler.

Die eigentliche Frage aber bleibt: Warum gibt die Bahn die Daten Google, statt sie jedem zugänglich zu machen? Warum nutzt der staatseigene Konzern nicht die Chance, offene Daten zu fördern? Um Geld soll es nicht gegangen sein, schreibt Spiegel Online. Worum dann? Angst vor der Kreativität anderer?

Bei Heise wird ein Sprecher mit den Worten zitiert, man wisse ja nicht, wie alt die Daten seien, die dann verwendet würden. Nun, das lässt sich wohl leicht beheben. Genau wie Google haben auch andere Entwickler von Diensten ein reges Interesse, ihren Kunden stets aktuelle Daten zu bieten. Solange die Bahn ihre eigenen Datensätze auf dem neusten Stand hält, dürfte es also kaum Probleme geben.

Kategorien: Datenquelle

Was mit den gespendeten Daten geschieht

Von 30. Juli 2012 um 16:11 Uhr

ZEIT ONLINE hat ab sofort einen anonymen digitalen Briefkasten. Damit ist es Ihnen möglich, uns Dokumente zu schicken, wenn Sie der Meinung sind, dass Medien und Öffentlichkeit von ihrem Inhalt erfahren sollten. Wir haben unser Bestes getan, um technisch sicherzustellen, dass dabei niemand mitlesen und niemand Sie beobachten kann. Was genau mit den hochgeladenen Informationen passiert, erfahren Sie hier:

Wenn Sie ein oder mehrere Dokumente absenden, werden diese über eine verschlüsselte Verbindung an den Briefkastenserver geschickt. Dazu wird die in allen Internet-Browsern eingebaute verschlüsselte Webverbindung benutzt, die auf dem Standard SSL basiert, zu erkennen daran, dass die Adresse mit https:// beginnt.

Fingerprint vergleichen

Es gibt Wege, solche SSL-Zertifikate zu fälschen, da jeder sie beantragen kann, im Zweifel auch unter fremdem Namen. Um sicher zu gehen, dass die verschlüsselte Verbindung wirklich von ZEIT und ZEIT ONLINE aufgebaut wurde, können sie den sogenannten SSL-Fingerprint vergleichen.

Der Fingerprint kann vom Browser angezeigt werden, sie finden die Information in den Einstellungen. Dort werden sämtliche Zertifikate aufgelistet, die ihr Browser kennt – ebenso der Fingerprint dazu (SHA1 oder MD5). Unseren Fingerprint veröffentlichen wir regelmäßig in der gedruckten Ausgabe der ZEIT. Die Prüfzahl aus Ihrem Browser sollte mit der von uns veröffentlichten übereinstimmen.

Sind die Daten auf dem Briefkastenserver angekommen, geschehen zwei Dinge. Zuerst werden sie in einem temporären Verzeichnis abgelegt und auf Viren überprüft. Anschließend werden eventuell vorhandene Metadaten gelöscht.

Metadaten löschen

Viele Datenformate wie JPEG oder PDF enthalten Zusatzinformationen. So kann ein Foto beispielsweise den Kameratyp verraten, mit dem es aufgenommen wurde, und sogar die GPS-Koordinaten, an denen das Bild entstanden ist, also den Ort. In Word-Dokumenten ist die Bearbeitungshistorie enthalten, aber auch Datei-Pfade, die unter Umständen Benutzernamen offenlegen können. Im schlimmsten Fall können solche Metainformationen zur Enttarnung des Datenspenders oder Verfassers eines Dokumentes führen. Daher säubern wir die Daten gleich bei der Ankunft.

Anschließend werden die Daten per E-Mail an die für den Briefkasten verantwortlichen Redakteure geschickt. Die E-Mails sind mit dem Standard PGP verschlüsselt. Gleichzeitig bekommen die Redakteure in der E-Mail einen Quittungscode übermittelt. Einen solchen Quittungscode erhält auch der Datenspender nach dem Hochladen der Dokumente.

Kontakt aufnehmen

Dieser Code ist ein Weg, über den die Redaktion Ihnen, dem Datenspender, eine Nachricht zukommen lassen kann. Im Prinzip ist es ein anonymes Postfach. Nur Sie können die Nachrichten, etwa über den Fortgang unserer Recherchen, einsehen.

Sind die Daten letztlich per verschlüsselter E-Mail verschickt, werden die temporären Dateien, die zur Bearbeitung auf dem Server angelegt worden waren, gelöscht – einzig das Postfach für Rückfragen verbleibt auf dem Server.

Sämtliche verwendeten Werkzeuge und Programme sind quelloffen. Wir haben sie, genau wie die Architektur des Briefkastens, bei Github veröffentlicht, damit der Weg, wie wir mit den Dokumenten umgehen, von jedem nachvollzogen werden kann.

Kategorien: Allgemein