Punkte, Linien, Listen

Verteilung des Wortes "Computer" in Texten von ZEIT und ZEIT ONLINE zwischen 1950 und 2012 Quelle: http://impactdevelopment.de/labs/zeit-online-api-demo/

Seit einer Woche ist unsere Text-Schnittstelle online und inzwischen gibt es eine ganze Reihe von Ideen, was sich mit dieser API und den dahinter liegenden Daten anstellen lässt. Einige sind so schön, dass wir sie etwas ausführlicher vorstellen wollen.

In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am naheliegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt.

Thomas Pfeiffer (@codeispoetry) von den Webevangelisten hat eine Seite gebaut, die eine Häufigkeitskurve ausgibt. Welche Begriffe sie anzeigen soll, bestimmt der Nutzer. Genau wie den Zeitraum, der untersucht werden soll. Wer will, kann mehrere Wörter gegeneinander laufen lassen, sie werden in der Eingabe dann mit Komma getrennt.

Hier zum Beispiel „Helmut Kohl“ gegen „Angela Merkel“:

Häufigkeit der Ausdrücke "Helmut Kohl" und "Angela Merkel" im Textarchiv von 1946 bis 2012. Quelle: http://webevangelisten.de/zeitapi/

Und, weil es so schön ist, hier noch ein Vergleich, „Apple“ gegen „Microsoft“:

Häufigkeit der Begriffe "Apple" und "Microsoft" von 2008 bis 2012. Quelle: http://webevangelisten.de/zeitapi/?q=Apple%2C+Microsoft&s=2008&e=2012

Die gleiche Idee hatten die beiden Webentwickler von Impactdevelopment. Ihre Seite ermittelt ebenfalls Worthäufigkeiten, wirft jedoch eine Punktwolke aus.

Das Beispiel im Bild oben stammt von ihnen, es ist die Häufigkeit des Ausdruck „Computer“. Der erlebte demnach ganz offensichtlich zwischen Mitte der Achtziger und Mitte der Neunziger einen ersten Höhepunkt und ist seit 2008 geradezu inflationär.

Praktischerweise lässt sich nicht nur die Wort-Menge erfassen. Wer auf einen der Punkte klickt, erhält eine Übersicht mit den entsprechenden Artikeln samt Überschrift, Vorspann und Link. Außerdem kann die Grafik über einen Menüknopf als JPG, PNG, PDF und SVG heruntergeladen werden. Leider gibt es aber keinen Permanentlink zu den Suchergebnissen. Und werden mehrere Begriffe in das Suchfeld eingegeben, sucht die Maske nach Texten, in denen sie gemeinsam vorkommen. Gegeneinander laufen lassen kann man sie nicht.

Mila Frerichs analysiert mit seinem Werkzeug allein die Häufigkeit von politischen Parteien im Textkorpus. Nach Monat und Jahr sortiert wird ihr Auftauchen in Texten als Kurve angezeigt. Die dazu gehörenden Artikel gibt es unter der Grafik mit Überschrift, Vorspann und Link.

Zahl der Texte pro Monat und Jahr, die sich mit einer Partei befassen. Quelle: http://zeitparteien.herokuapp.com/

Das klappt prima, solange es nicht um die Piraten geht. Die tauchen schon lange vor der Parteigründung 2006 in Texten auf, im klassischen Zusammenhang. Die Abfrage unterscheidet jedoch nicht zwischen Seeräubern und Politikern.

Interessant ist die Jahresübersicht. So wurden 2010 und 2011 vor allem CDU und FDP in Artikeln erwähnt, 2012 hingegen führt die SPD in vielen Monaten die Erwähnungsliste an.

Die Häufigkeit von Städten und Ländern hat Newstral ausgewertet. Auf einer Weltkarte wird dargestellt, aus welchen Regionen wie viele Nachrichten berichten. Erfasst sind die Jahre 2010 bis 2012.

Nennung von Städten und Ländern in Texten von ZEIT und ZEIT ONLINE. Quelle: http://newstral.com/de/maps/

Die Karte vermittelt einen ganz guten Überblick, wo die Schwerpunkte der Berichterstattung liegen, es sind offensichtlich Deutschland und die USA. In Afrika wird es eher dünn.

Es gibt bereits einige Werkzeuge mehr, die die Schnittstelle nutzen.

Ein hinreißende Idee hatte Stefan Wehrmeyer, der die Seite Frag den Staat! betreibt. Er baut aus den Archivtexten ein Spiel. Drei Begriffe aus einem beliebigen Text müssen in einer Buchstabenmatrix wiedergefunden werden. Leider ist das Programm fehlerhaft, manchmal versteckt es nur zwei Begriffe in der zufällig erzeugten Matrix, manchmal fünf – wobei sich dann nicht alle korrekt markieren lassen.

Wortsuche in der Buchstaben-Matrix, basierend auf Artikeln. Quelle: http://stefanwehrmeyer.com/projects/zeitwort/

Trotzdem ist es ein Beispiel, das demonstriert, welche Möglichkeiten in einer offenen Schnittstelle stecken. Nun fehlen noch Anwendungen, die versuchen, verschiedene Aspekte miteinander zu verknüpfen. Also beispielsweise zeitliche oder inhaltliche Zusammenhänge. Wie viele Berichte gibt es zu Flugzeugabstürzen, und sind es mehr oder weniger als zu Zugunglücken? Spannend wäre sicher auch eine sogenannte Sentiment Analyse: Sind Texte über Angela Merkel eher positiv oder eher negativ?

 

ZEIT ONLINE startet eine Text-API

Namen, die in Texten von Zeit und Zeit Online vorkommen, sortiert nach ihrer Häufigkeit

ZEIT ONLINE hat ab sofort eine Content-API. Klingt langweilig? Nun, es kommt sehr darauf an, was andere daraus machen. Eine API ist ein Zugang, eine Möglichkeit, bestimmte Informationen automatisiert abzufragen. Auf der Seite http://developer.zeit.de/ findet sich nun eine solche API und sie ist der Zugang zu allen Texten, die in der ZEIT (seit 1946) und bei ZEIT ONLINE (seit 1996) erschienen sind.

Dank dieser Schnittstelle kann nun jeder alle Texte mit Hilfe von Programmen durchsuchen und analysieren. Eine REST-API gibt Metadaten wie Autor, Kategorien oder Schlagworte aus. In der Beta-Version der API ist es aus rechtlichen Gründen leider nicht möglich, auch den Volltext auszugeben und zu speichern. Aber wer ein Projekt plant, für das die Übernahme des Volltextes von Artikeln nötig ist, kann unter api@zeit.de jederzeit Kontakt aufnehmen.

Warum tun wir das? Wir glauben, dass in den hunderttausenden Artikeln noch viele spannende Informationen verborgen sind. Örtliche oder inhaltliche Zusammenhänge, Zeitbezüge – durch eine Verknüpfung können Dinge sichtbar werden, die beim einfachen Lesen nicht unbedingt zutage treten.

Beispielsweise durch Visualisierungen. Oder durch Langzeitbeobachtungen. Wie oft tauchte der Begriff „China“ in den vergangenen 66 Jahren in unseren Texten auf? Und in welchen Zusammenhängen? Wie hat sich also das China-Bild der Redaktion und vielleicht also auch das deutsche China-Bild in dieser Zeit gewandelt?

Die automatisierte Abfrage stellt die Technik bereit, um solche Informationen finden zu können. Nun braucht es nur noch Fragen.

Anwendungen und Visualisierungen, die aus der Arbeit mit der API entstehen, sammeln wir auf dieser Seite. (Nachtrag: Was natürlich bedeutet, dass wir uns über jeden freuen, der uns das Ergebnis seiner Arbeit zeigt.)

Die Bedingungen, unter denen die Nutzung der Schnittstelle möglich ist, finden Sie hier.

Informationen über die weitere Arbeit an der API finden sich nebenan, im Entwicklerblog von ZEIT ONLINE.

 

Open Knowlege Foundation macht Entwicklungshilfe transparenter

Ausgaben der deutschen Entwicklungshilfe / Screenshot von http://www.offene-entwicklungshilfe.de/

Wohin geht das Geld? Diese Frage können Daten-Visualisierungen meist schnell beantworten – denn das ist ihre Stärke: einen Überblick über komplexe Zusammenhänge geben. Die Open Knowledge Foundation hat sich genau deswegen der Ausgaben der deutschen Entwicklungshilfe angenommen und diese in einer interaktiven Grafik aufgeschlüsselt.

Demnach hat Deutschland in den vergangenen zehn Jahren die Länder Irak, China, Nigeria, Kamerun und Indien am stärksten gefördert, in dieser Reihenfolge. Das Geld geht also vor allem an Schwellenländer. Der größte Teil der deutschen Entwicklungshilfe weltweit wird außerdem für den Schuldenerlass aufgewendet – also nicht überwiesen, um konkrete Projekte zu fördern, sondern nur auf dem Papier gestrichen.

Beide Ergebnisse lassen sich sofort erfassen, betrachtet man die Grafiken, die die Open Knowledge Foundation Deutschland am Montag veröffentlicht hat.

Wer zahlt wo was?

Erstellt hat die Seite Christian Kreutz. Er ist im Vorstand der Open Knowledge Foundation und arbeitet in der Entwicklungshilfe. „Man weiß in diesem Bereich oft gar nicht, wer schon wo was gefördert hat“, sagt er. Es gebe keinen internationalen Überblick und nicht einmal einen nationalen. Seine Grafik könnte helfen, hofft er.

Denn die zeigt nicht nur bunt eingefärbte Länder. Sie schlüsselt auch genau auf, in welchem Bereich für welches Vorhaben wie viele Dollar ausgegeben wurden. „Wir wollen, dass man sich schnell durch die Daten bewegen kann“, sagt Kreutz. Die offiziellen Berichte, die solche Aufstellungen in Form langer Listen veröffentlichen, seien zu unübersichtlich.

Die Daten dafür stammen von der OECD. Sie sind inflationsbereinigt, allerdings in einigen Fällen nicht vollständig. So würden Informationen von Ländern, die nicht mehr als Entwicklungsland zählen, in der Datenbank der OECD rückwirkend entfernt.

Die OECD hat eine eigene Datenbankseite, auf der die Informationen eingesehen werden können. Allerdings ist Aidflows.org nicht sonderlich übersichtlich. Das größte Problem beim Erstellen von offene Entwicklungshilfe sei denn auch gewesen, die OECD-Daten zu verstehen, sagt Kreutz.

Bitte nachahmen!

Ein nicht zu unterschätzender Effekt solcher Projekte ist der Druck auf die Urheber der Daten. Seit ziemlich genau zwei Jahren gibt es die Seite offener Haushalt, auf der die Open Knowledge Foundation den Bundeshaushalt transparent macht und übersichtlich aufschlüsselt. Inzwischen sah sich das Finanzministerium anscheinend genötigt, nachzuziehen. Seit August dieses Jahres gibt es die Haushaltszahlen in einem Format heraus, das digital weiterverarbeitet werden kann. Auch eine Visualisierung hat das Ministerium eingeführt.

Das Ministerium habe sich dabei offensichtlich von der Seite offener Haushalt inspirieren lassen, wie der Datenjournalist Lorenz Matzat bei Netzpolitik schrieb. Vielleicht lässt sich das Entwicklungshilfeministerium ja von dem neuen Projekt inspirieren.

Update: Wahrgenommen hat das Ministerium das Projekt.

 

Fliegende Augen für Journalisten

Nach einem Hurrikan liegt überall Schutt, vieles ist zerstört, es herrscht vor allem Verwirrung. Ein Journalist, der durch eine solche Gegend irrt, hat kaum eine Chance, sich ein Bild von der Lage zu machen und wird sich schwer tun, die Orte und Menschen zu identifizieren, die ihm bei der Recherche helfen. Er muss sich auf sein Glück verlassen.

In einem solchen Szenario könnten Drohnen helfen. Denn der Blick aus fünfzig oder hundert Metern Höhe offenbart das umfassendere Bild, er zeigt Muster und im Zweifel auch den Weg zur nächsten Sammelstelle, an der sich Menschen finden, die etwas über die Katastrophe erzählen können.

Seit Drohnen auf dem Weg sind, eine alltägliche Technik zu werden, denken auch Journalisten darüber nach, wie diese ihnen bei der Arbeit helfen können. Das iPad-Magazin The Daily beispielsweise flog 2011 mit einem Quadrocopter den überfluteten Mississippi ab und stellte die Videos ins Netz.

Auch der amerikanische Sender ABC News testete solche Gefährte. Bislang sind das alles nur Experimente. Unsinnig aber sind sie nicht. Matt Waite baut gerade das Drone Journalism Lab an der Universität Nebraska auf, um genau solche Anwendungen zu erforschen. Er sieht noch viel mehr Szenarien, wie er im Interview mit ZEIT ONLINE erzählt.

Beispiel Fukushima: Drohnen könnten ohne Risiko für einen Piloten nicht nur Fotos und Videos liefern, sondern auch billige Sensoren rund um ein havariertes Atomkraftwerk abwerfen, sagt er, die dann Daten senden. Die mit den ferngesteuerten oder autonomen Fluggeräten gemachten Bilder könnten verwendet werden, um schnell Karten von Zerstörungen zu entwerfen und zu veröffentlichen.

Mit den Spielzeugen, die es derzeit für ein paar hundert Euro gibt und die sich mit einem iPad oder einem iPhone steuern lassen, geht das nicht. Die taugen vor allem, um die Möglichkeiten zu erahnen. The Daily zu Beispiel nutzte ein Gerät namens md4-1000 von Microdrones, das auch bei der Polizei und der Feuerwehr eingesetzt wird. Ein Spielzeug ist das nicht mehr, der Copter kann länger als anderthalb Stunden in der Luft bleiben, vorher programmierte Wegpunkte abfliegen, diverse Sensoren tragen und kostet „ab 40.000 Euro“.

Noch überwiegen beim Thema Drohnen die Befürchtungen. Vor allem die davor, dass es mit ihnen nun noch mehr Möglichkeiten gibt, unbemerkt in die Privatsphäre anderer einzudringen. Die sind sicher nicht unbegründet, allerdings gibt es längst Gesetze, die das verbieten.

Wichtiger scheint, wenn es um Sicherheit geht, ein anderer Aspekt: Die Köpfe von Unbeteiligten. Professionelle Drohnen hätten so kräftige Luftschrauben, das sie fliegenden Rasenmähern ähnelten, sagt Waite. Auch sei die Technik noch nicht ausgereift und Abstürze gar nicht so selten. Über Menschen hinweg zu fliegen, sei daher keine gute Idee.

Unter anderem deswegen beschäftigt sich auch die amerikanische Luftfahrtaufsicht FAA mit den Drohnenflügen des Magazins The Daily.

 

Die Bahn gibt ihre Daten lieber Google statt allen

Zweiter Test: Fernverkehr der Deutschen Bahn from Michael Kreil on Vimeo.

Die Deutsche Bahn fährt nach einem Fahrplan, der an jedem Bahnhof aushängt, der auf diversen Websites angezeigt wird und den jeder über die offizielle Bahn-App auf seinem Smartphone einsehen kann. Alles gut, könnte man denken. Doch um wirklich von Nutzen zu sein, wäre es sinnvoll, wenn diese Fahrplandaten in einem maschinenlesbaren Format von jedem heruntergeladen werden könnten.

Dann könnte jeder darüber nachdenken, wie sich vielleicht noch bessere Fahrplan-Anwendungen bauen ließen. So clever die Bahn auch sein mag, in der Masse der Menschen gibt es garantiert immer noch einen, der noch cleverer ist. Und der etwas erdenkt, was vielen Bahnkunden nützten könnte.

Dieses Prinzip – open data genannt – haben viele Institutionen längst verinnerlicht. Die Bundesregierung beispielsweise testet deswegen ein Portal für viele, viele statistische Daten und Regierungsinformationen.

Die Deutsche Bahn jedoch mag diesen Vorteil nicht erkennen. Sie gibt ihre Daten nicht an Jedermann. Man wolle sich aussuchen, mit wem man zusammenarbeite, zitiert Spiegel Online einen Sprecher des Unternehmens. Sonst leide womöglich die Qualität.

Das Unternehmen, dem die Bahn vertraut, ist Google. Google Transit heißt das Produkt, das der Konzern aus solchen Kooperationen baut. Außerdem sind die Fahrpläne nun in die Anwendung Google Maps integriert.

Nach Meinung erster Tester beispielsweise bei Basic Thinking ist das aber nicht besonders gut gelungen. Zitat: „Nicht enthalten sind allerdings eben jene Daten des Nahverkehrs: U-Bahn, Straßenbahn und Bus. Google Transit schickt euch im Innenstadtbereich deswegen nur von Bahnhof zu Bahnhof und lässt euch kilometerweit zu Fuß laufen.“

Würden die Daten jedem zur Verfügung stehen, hätte Google sie trotzdem in sein Produkt einbauen und damit Geld verdienen können. Gleichzeitig aber wären sie für freie Entwickler eine Quelle gewesen, um eigene Ideen und vielleicht Produkte zu verwirklichen. Nicht umsonst gelten offene Daten als wirtschaftlicher Faktor.

Und solche freien Entwickler gibt es viele. Michael Kreil (der unter anderem an der Grafik über Vorratsdaten bei ZEIT ONLINE beteiligt war), hat mit dem Zugmonitor bewiesen, dass sich aus Fahrplandaten interessante und nützliche Anwendungen bauen lassen. Er glaubt ganz offensichtlich an die kreative Macht der Masse und hat die Fahrplandaten der Bahn von deren Websites geklaubt und auf einem eigenen Portal veröffentlicht, wo jeder sie herunterladen kann.

Damit dürfte bald ein Vergleich möglich sein, wer die besseren Anwendungen baut, die Bahn, Google oder irgendein freier Entwickler.

Die eigentliche Frage aber bleibt: Warum gibt die Bahn die Daten Google, statt sie jedem zugänglich zu machen? Warum nutzt der staatseigene Konzern nicht die Chance, offene Daten zu fördern? Um Geld soll es nicht gegangen sein, schreibt Spiegel Online. Worum dann? Angst vor der Kreativität anderer?

Bei Heise wird ein Sprecher mit den Worten zitiert, man wisse ja nicht, wie alt die Daten seien, die dann verwendet würden. Nun, das lässt sich wohl leicht beheben. Genau wie Google haben auch andere Entwickler von Diensten ein reges Interesse, ihren Kunden stets aktuelle Daten zu bieten. Solange die Bahn ihre eigenen Datensätze auf dem neusten Stand hält, dürfte es also kaum Probleme geben.

 

Was mit den gespendeten Daten geschieht

ZEIT ONLINE hat ab sofort einen anonymen digitalen Briefkasten. Damit ist es Ihnen möglich, uns Dokumente zu schicken, wenn Sie der Meinung sind, dass Medien und Öffentlichkeit von ihrem Inhalt erfahren sollten. Wir haben unser Bestes getan, um technisch sicherzustellen, dass dabei niemand mitlesen und niemand Sie beobachten kann. Was genau mit den hochgeladenen Informationen passiert, erfahren Sie hier:

Wenn Sie ein oder mehrere Dokumente absenden, werden diese über eine verschlüsselte Verbindung an den Briefkastenserver geschickt. Dazu wird die in allen Internet-Browsern eingebaute verschlüsselte Webverbindung benutzt, die auf dem Standard SSL basiert, zu erkennen daran, dass die Adresse mit https:// beginnt.

Fingerprint vergleichen

Es gibt Wege, solche SSL-Zertifikate zu fälschen, da jeder sie beantragen kann, im Zweifel auch unter fremdem Namen. Um sicher zu gehen, dass die verschlüsselte Verbindung wirklich von ZEIT und ZEIT ONLINE aufgebaut wurde, können sie den sogenannten SSL-Fingerprint vergleichen.

Der Fingerprint kann vom Browser angezeigt werden, sie finden die Information in den Einstellungen. Dort werden sämtliche Zertifikate aufgelistet, die ihr Browser kennt – ebenso der Fingerprint dazu (SHA1 oder MD5). Unseren Fingerprint veröffentlichen wir regelmäßig in der gedruckten Ausgabe der ZEIT. Die Prüfzahl aus Ihrem Browser sollte mit der von uns veröffentlichten übereinstimmen.

Sind die Daten auf dem Briefkastenserver angekommen, geschehen zwei Dinge. Zuerst werden sie in einem temporären Verzeichnis abgelegt und auf Viren überprüft. Anschließend werden eventuell vorhandene Metadaten gelöscht.

Metadaten löschen

Viele Datenformate wie JPEG oder PDF enthalten Zusatzinformationen. So kann ein Foto beispielsweise den Kameratyp verraten, mit dem es aufgenommen wurde, und sogar die GPS-Koordinaten, an denen das Bild entstanden ist, also den Ort. In Word-Dokumenten ist die Bearbeitungshistorie enthalten, aber auch Datei-Pfade, die unter Umständen Benutzernamen offenlegen können. Im schlimmsten Fall können solche Metainformationen zur Enttarnung des Datenspenders oder Verfassers eines Dokumentes führen. Daher säubern wir die Daten gleich bei der Ankunft.

Anschließend werden die Daten per E-Mail an die für den Briefkasten verantwortlichen Redakteure geschickt. Die E-Mails sind mit dem Standard PGP verschlüsselt. Gleichzeitig bekommen die Redakteure in der E-Mail einen Quittungscode übermittelt. Einen solchen Quittungscode erhält auch der Datenspender nach dem Hochladen der Dokumente.

Kontakt aufnehmen

Dieser Code ist ein Weg, über den die Redaktion Ihnen, dem Datenspender, eine Nachricht zukommen lassen kann. Im Prinzip ist es ein anonymes Postfach. Nur Sie können die Nachrichten, etwa über den Fortgang unserer Recherchen, einsehen.

Sind die Daten letztlich per verschlüsselter E-Mail verschickt, werden die temporären Dateien, die zur Bearbeitung auf dem Server angelegt worden waren, gelöscht – einzig das Postfach für Rückfragen verbleibt auf dem Server.

Sämtliche verwendeten Werkzeuge und Programme sind quelloffen. Wir haben sie, genau wie die Architektur des Briefkastens, bei Github veröffentlicht, damit der Weg, wie wir mit den Dokumenten umgehen, von jedem nachvollzogen werden kann.

 

Was Sie beim Datenspenden beachten sollten

Auf unserer Briefkasten-Seite können Sie uns anonym Informationen, Daten oder Nachrichten zukommen lassen. Interne Dokumente, geheime Verträge, vertrauliche Datenbankauszüge – wenn Sie finden, dass die Öffentlichkeit davon erfahren sollte, können Sie sie hier spenden.
 
Wir haben unser Bestes getan, um technisch sicherzustellen, dass Sie dabei nicht beobachtet werden, und dass niemand die übertragenen Daten mitlesen kann. Mehr zur Technik finden Sie hier
 
Wenn Sie sich außerdem an ein paar Regeln halten, die wir Ihnen hier erklären, ist die Chance hoch, dass Sie unerkannt bleiben. 
 
Uns gegenüber bleiben Sie dabei immer anonym, wenn Sie das wünschen. Sie müssen uns keinen Namen und keine Kontaktmöglichkeit nennen und können, wenn Sie es wollen, anonym mit uns Kontakt aufnehmen. Dazu erzeugt der Datenbriefkasten nach dem Absenden einen Quittungscode mit einem Link. Dieser führt zu einer Nachrichtenbox, die nur derjenige sehen kann, der den Link kennt. Halten Sie den Link daher geheim und speichern Sie ihn auch nicht auf Ihrem Rechner oder in Ihrem Browser.
 
In dieser Nachrichtenbox können wir Nachrichten für Sie hinterlegen. Das können Mitteilungen über Fortschritte bei der Recherche Ihrer Geschichte sein, oder auch Nachfragen zu einzelnen Punkten. Ob und wie Sie anschließend auf diese Botschaften reagieren, bleibt Ihnen überlassen.
 
Was diese Seite nicht ist:
 
Wir sind nicht WikiLeaks oder eine andere Leaks-Plattform. Das bedeutet, es gibt keine Garantie dafür, dass Informationen, die Sie uns hier spenden, auch veröffentlicht werden. 
 
Wir publizieren im Zweifel auch nicht alle Informationen oder Dokumente, die uns erreichen; entweder, um den oder die Spender zu schützen, oder weil wir finden, dass nicht alle Einzelheiten an die Öffentlichkeit gehören.
 
Wir bearbeiten die Inhalte journalistisch. Es ist also durchaus möglich, dass Ihre Datenspende der Beginn einer längeren Recherche ist und letztlich nur ein Puzzleteil in dem dann veröffentlichten Mosaik darstellt.

Zu Ihrer eigenen Sicherheit sollten Sie einige Punkte beachten: 
 
– Senden Sie keine Informationen direkt von Ihrem Firmenrechner und nehmen Sie auch von diesem aus keinen Kontakt zu uns auf. Auch Ihren privaten Rechner zu Hause sollten Sie nicht verwenden, denn anhand seiner IP-Adresse können Sie im Zweifel identifiziert werden. Auch wenn wir beim Briefkasten keine Server-Logs speichern, können Sie so das Risiko weiter verringern, dass die Datenspende auf Sie zurückgeführt werden kann. Nutzen Sie lieber Geräte, die mit Ihnen nicht in Beziehung stehen, also beispielsweise in einem Internetcafé oder einer Bibliothek.  

– Ziehen Sie Daten aus einem internen Netzwerk nicht auf Ihren eigenen Rechner. Nutzen Sie externe Speicher wie DVDs oder USB-Sticks. Wenn diese zu auffällig sind, verwenden Sie beispielsweise einen MP3-Player. Diese Geräte können jedes Dateiformat speichern, sehen aber harmloser aus als eine blanke DVD. In manchen Systemen wird das Speichern bestimmter Informationen protokolliert.

– Es kann sinnvoller sein, Daten auf Papier weiterzugeben. Doch auch Druckvorgänge werden intern oft protokolliert. Außerdem enthalten Ausdrucke versteckte Signaturen, die ein Zurückverfolgen möglich machen. Daher kann es besser sein, nur den Bildschirm abzufotografieren, jedoch möglichst nicht mit einem Gerät, das dem Unternehmen gehört. Außerdem sollten Funktionen, die beim Fotografieren die Geoposition im Bild speichern, abgeschaltet sein.

– Denn viele Dateiformate enthalten sogenannte Metadaten, also Zusatzinformationen, die im Zweifel auf Sie weisen können. Unser Briefkasten löscht solche Metadaten. Doch können auch Sie solche Informationen einschränken. Beispielsweise, in dem Sie den oberen Rand eines Faxes – auf dem die Nummer des Faxgerätes steht – abschneiden oder beim Kopieren abdecken. Ähnlich funktioniert das auch mit digitalen Formaten. So gibt es Programme, die aus JPG-Dateien alle sogenannten EXIF-Daten löschen.
 
– Der Kreis derjenigen, die Zugang zu einer internen Information haben, sollte nicht zu klein sein, um einen eventuellen Verdacht nicht auf Sie zu lenken. Beschränkt er sich auf wenige Personen, nehmen Sie lieber Abstand von einer Datenspende oder sorgen Sie zuvor dafür, dass der Kreis größer ist.
 
– Wenn Sie mit uns telefonieren wollen, kaufen Sie sich eine anonyme Prepaid-Karte und ein gebrauchtes Handy. Nutzen Sie nicht Ihr eigenes Gerät.

– Wenn Sie uns mailen wollen, nutzen Sie niemals eine auf Sie registrierte Mailadresse oder eine Adresse, mit der Sie auch sonst kommunizieren. Verwenden Sie anonyme Einmal-Adressen oder besorgen Sie sich einen Account unter falschem Namen bei einem Freemail-Anbieter. Benutzen Sie diese Mailadressen nicht von Firmenrechnern oder Ihrem Rechner zu Hause und verwenden Sie sie auch nicht für andere Zwecke als den gedachten. Verwenden Sie Verschlüsselungstechniken wie PGP. Die entsprechenden Programme sind kostenlos im Internet verfügbar.

– Sie können versuchen, Ihre heimische IP-Adresse und damit ihre Identität im Netz mit Diensten wie TOR zu verschleiern. Aber anonyme Mailadressen und Internetcafés bieten Ihnen im Zweifel mehr Sicherheit.

– Haben Sie Geduld und planen Sie Ihre Datenspende. Übereiltes oder unüberlegtes Handeln könnte Sie gefährden.

 

Drohnen an der Heimatfront

Karte mit militärischen Drohnenstützpunkten in den USA / Quelle: Public Intelligence / Link: http://publicintelligence.net/dod-us-drone-activities-map/

Vor 15 Jahren, im Bosnienkrieg, hat die amerikanische Armee zum ersten Mal Drohnen eingesetzt. Inzwischen sind die unbemannten Fluggeräte alltäglich, nicht nur in Kriegen. Auf zwei Karten ist zu sehen, an wie vielen Orten in den USA inzwischen Drohnen stationiert sind oder geflogen werden. Es sind viele.

Drohnen können mit Raketen bestückt werden. Vor allem aber können Drohnen je nach Bauart unbeobachtet beobachten. Die vergleichsweise kleinen Geräte können aus großer Höhe Städte und Straßen überwachen, ohne gesehen oder gehört zu werden. In Texas wurden sie daher schon eingesetzt, um verdächtige Häuser zu überfliegen.

Armee, Luftwaffe, Grenzpolizei – alle sind an der Technik interessiert, da sie Soldaten und Polizisten schnell einen Überblick über ein Areal verschaffen kann. Wie groß das Interesse ist, zeigt die obere Karte. Die blauen Punkte zeigen die Stützpunkte, die in den kommenden Jahren geplant sind.

Bürgerrechtler besorgt diese Entwicklung. Vor allem, da bereits jetzt sehr viele Organisationen und Polizeibehörden von der Flugaufsicht FAA eine Genehmigung haben, Drohnen zu nutzen, wie die zweite Karte belegt. „Are Drones Watching You?“, fragt die Electronic Frontier Foundation. Sie schreibt: „Mit Drohnen ist eine sehr fortgeschrittene und dauerhafte Überwachung möglich und sie können Unmengen Daten sammeln. Mit verschiedenen Geräten können sie Livevideos übertragen, Infrarotbilder senden, Hitzesensoren und Radar benutzen. Neuere Modelle haben hochauflösende Gigapixel-Kameras, die Menschen und Fahrzeuge aus einer Höhe von 20.000 Fuß (6.000 Meter) beobachten können.“

Karte mit zivilen und Polizei-Organisationen, die eine Zulassung haben, Drohnen innerhalb der USA zu fliegen / Quelle: EFF / Link: https://www.eff.org/deeplinks/2012/04/faa-releases-its-list-drone-certificates-leaves-many-questions-unanswered

Die Daten von der Flugaufsichtsbehörde mussten von der EFF mit Hilfe des Freedom of Information Act eingeklagt werden. Die Daten über die militärischen Stützpunkte stammen aus Veröffentlichungen des Verteidigungsministeriums, aus denen sie zusammengesucht wurden.

Auch in Deutschland gibt es im Übrigen Pläne, den Einsatz von Drohnen im Inland zu regeln und damit zu ermöglichen.

 

Tornado-Spuren

Tornados in den USA zwischen 1950 und 2006, Vislualisierung: John Nelson, Link: http://uxblog.idvsolutions.com/2012/05/tornado-tracks.html, Quelle: NOAA

Wie man aus offenen Daten schnell praktischen Nutzen zieht, macht ein amerikanischer Blogger vor. John Nelson fand bei data.gov, dem Open-Data-Portal der US-Regierung einen Datensatz vom Sturmvorhersage-Zentrum des Landeswetterdienstes über Tornados.

In dem sind die Routen aller bekannt gewordenen Tornados von 1950 bis 2006 verzeichnet – beziehungsweise jeweils der Anfangs- und der Endpunkt der Stürme. Auch die Stärke auf der sogenannten Fujita- oder F-Skala ist vermerkt.

Nelson baute aus den 50 Megabyte an Daten eine Grafik, die sofort sichtbar macht, in welchen Regionen der USA besonders viele Tornados beobachtet werden. Nachdem er dafür viel Aufmerksamkeit bekam, erweiterte er das um eine Aufschlüsselung nach der Stärke der Tornados.

Das ergab einerseits eine interessante – wenn auch leider statische – Visualisierung. Andererseits sieht die Grafik auch einfach gut aus, weswegen Nelson sie nun über einen entsprechenden Anbieter als Poster verkauft, je nach Größe für 9,40 Dollar bis 94,80 Dollar.

Verlauf und Stärke von Hurrikans in Nordamerika, Quelle: NOAA, Link: http://www.csc.noaa.gov/hurricanes/#

Das ist schick, wenn auch nicht unbedingt wissenschaftlich. Wer den Verlauf solcher Stürme genauer verfolgen will, sollte zur National Oceanic and Atmospheric Administration (NOAA) gehen, die die Daten veröffentlicht hat. Dort gibt es viele zusätzliche Informationen zu den historischen Sturmdaten.

Und bei ihr gibt es auch eine Karte mit Sturmdaten. Die hat den Vorteil, dass sie den tatsächlichen Verlauf der Stürme darstellt und nicht nur den Anfangs- und Endpunkt. Dort ist dann auch zu erkennen, in welchen Regionen sie entstehen und bis wohin sie ziehen.

Die historischen Kartendaten im Übrigen sind wie viele Daten des amerikanischen Wetterdienstes im Shapefile-Format gespeichert. Das kann mit quelloffenen Programmen bearbeitet werden.

 

SNCF stellt offene Daten zur Verfügung

Informationstafel am Pariser Bahnhof Gare de l'Est © THOMAS SAMSON/AFP/Getty Images

Der deutschen Bahn müssen Informationen über ihre Züge und deren Pünktlichkeit geradezu abgerungen werden. Die französische SNCF stellt ihre Daten hingegen frei zur Verfügung.

Zwar veröffentlicht die Bahn hierzulande, welcher Zug wie viel Verspätung hat. Doch gibt es keine Datenbank, in der all diese Daten abgelegt werden – und die damit als Quelle neuer Anwendungen dienen könnte. Daher muss zum Beispiel der „Zugmonitor“ der Süddeutschen Zeitung sich die Informationen mühsam zusammensuchen, um sie dann in einer übersichtlichen Grafik darstellen zu können.

Eine solche Grafik hat die französische Staatsbahn SNCF nicht. Aber sie hat nun ein Open-Data-Portal. Dort können die Informationen zur Pünktlichkeit des TGV dann als .csv-Datei heruntergeladen und damit problemlos weiterverarbeitet werden.

In dem Portal will die SNCF schrittweise all ihre Daten anbieten, seien es Zugverbindungsdaten, Bahnhöfe oder Fahrpläne. Außerdem wird um Rückmeldung und Kritik gebeten, um das Ganze gemeinsam weiterentwickeln zu können. Als Lizenz nutzt die SNCF die Open Database License ODbL, die es erlaubt, damit auch kommerzielle Anwendungen zu bauen.

Ein Lob dafür. Soweit sind die Verkehrsanbieter in Deutschland noch nicht. Zwar haben viele inzwischen Schnittstellen eingerichtet, um ihre Daten nutzen zu können, beispielsweise hier der Verkehrsverbund Berlin-Brandenburg. Doch wollen sie alle nicht, dass andere mit ihren Informationen Geld verdienen. Was kurzsichtig ist, würde doch jedes erfolgreiche Unternehmen Steuern zahlen. Was alle zugute kommt, auch den vom Staat bezuschussten Verkehrsanbietern.