Offene Daten – offene Gesellschaft

Autoren Archiv von Kai Biermann

Freedom of the Press Foundation bietet Code für anonymen Briefkasten

Von 16. Oktober 2013 um 16:09 Uhr

Nicht zuletzt Edward Snowden zeigt, wie wichtig sogenannte Whistleblower für eine aufgeklärte Gesellschaft sind. Manche Rechtsbrüche kommen nur ans Licht, wenn ein Insider sie publik macht. Da das – wie ebenfalls Snowden und vor allem Chelsea Manning belegen – gefährlich ist, braucht es anonyme Wege, um Sauereien öffentlich zu machen.

Die amerikanische Freedom of the Press Foundation hat nun ein Werkzeug veröffentlicht, um anonyme Datenspenden möglichst sicher zu machen. Entwickelt hat es der vor einiger Zeit verstorbene Hacker Aaron Swartz.

Swartz war ein begabter Programmierer und ein Aktivist der amerikanischen Netzszene, er hat unter anderem das Format RSS mitentwickelt und war bei Creative Commons beteiligt.

Eine seiner letzten Arbeiten war eben eine anonyme Postbox. Für das Magazin New Yorker entwickelte er das System namens Strongbox – unter der Bedingung, dass dessen Code open source sein solle, also allen zur Verfügung stehen. (Hier der Briefkasten des New Yorker)

Den Open-Source-Gedanken hat die Freedom of the Press Foundation nun vollständig umgesetzt. Sie hat das System geprüft und weiterentwickelt und bietet es unter dem Namen SecureDrop kostenlos jedem Medium auf der Welt an, zusammen mit Unterstützung beim Installieren und Hilfe beim Betrieb. Den Code getestet haben unter anderem der Sicherheitanalyst Bruce Schneier und der Entwickler von TOR, Jacob Applebaum.

New Yorker und Freedom of the Press Foundation sind nicht die Ersten, die erkannt haben, wie wichtig anonyme Kommunikationswege zu Lesern und Informanten sind. In Deutschland haben verschiedene Medien solche Briefkästen zum Teil bereits seit Jahren.

ZEIT ONLINE bietet einen an, der ebenfalls open source ist. Der Code kann von jedem kostenlos heruntergeladen und auf seiner Website installiert werden. Genau wie das System von Swartz steht auch der Code des ZEIT-ONLINE-Briefkastens beim Portal Github.

Kategorien: Datenjournalismus

Die Drohnen-Dokumente

Von 21. August 2013 um 12:25 Uhr

Wenn es um die Analyse von Informationen geht, sind PDFs nicht unbedingt das zugänglichste Format. Leider bestehen die Drohnen-Dokumente ausschließlich aus PDF-Dateien. Es sind insgesamt 372 Aktenordner mit teilweise mehr als 400 Seiten, von der ersten bis zur letzten Seite eingescannt und als PDF in einem Dateiordner gespeichert. Zusammen ist das Konvolut mehr als 80 Gigabyte groß. Es sind die gleichen Akten, die dem Untersuchungsausschuss des Bundestages zur Verfügung gestellt wurden, um den Fall Euro Hawk zu untersuchen.

Wegen der zum Teil schlechten Scans konnten wir die Akten nicht mit einer Texterkennungssoftware bearbeiten. Eine Datenanalyse ist daher kaum möglich, obwohl sie spannend wäre: Welche Behördenebenen wurden wann informiert, welche Mitarbeiter tauchten wo auf, zu welchen Zeitpunkten gab es die meisten Akten und warum? All diese Fragen hätten mit statistischen Mitteln untersucht werden können, wenn die Daten besser wären.

So aber blieb nur die Handarbeit. Zu sechst haben wir – Philip Faigle, Carsten Luther, Yassin Musharbash, Karsten Polke-Majewski, Thomas Wiegold und Kai Biermann – mehr als zwei Wochen lang gelesen. Allein einen Tag brauchten wir, um die Struktur der Ordner zu verstehen. Denn sie sind nicht chronologisch oder nach Abteilungen sortiert. Sondern nach den Beweisbeschlüssen, die der Untersuchungsausschuss des Bundestages formuliert hat. Die aber sind oft sehr allgemein gefasst, um möglichst viele Akten vom Verteidigungsministerium und seinen nachgeordneten Behörden zu bekommen. Beispielsweise lauten sie: “Es wird Beweis erhoben zum gesamten Untersuchungsauftrag durch Beiziehung sämtlicher Dokumente, Ausarbeitungen, Einschätzungen, Berichte o.ä. (…) zur Problematik SLWÜA zwischen dem 01.01.1999 und dem 18.08.2002″.

Die Ministerialbeamten wiederum haben offensichtlich alles zusammengesucht, was sie unter dem Stichwort Global Hawk / Euro Hawk in ihren Schränken finden konnten und das meistens unsortiert abgeliefert. Entsprechend durcheinander ist der Inhalt der Ordner.

Daher war eine gezielte Recherche nach einzelnen Ereignissen, Daten und Dokumenten unmöglich. Es blieb nur, Ordner für Ordner zu überfliegen und Seite um Seite zu lesen. Dabei stößt man auf so viele Details, dass man sich leicht für Tage darin verliert. Es braucht also Zeit.

Wir haben mit unseren Texten, die wir von heute an veröffentlichen, versucht, eine Balance zu finden. Sie sollen einen Eindruck vom Denken und Handeln der beteiligten Beamten geben und erklären, warum das Projekt Euro Hawk scheiterte, ja von Anfang an scheitern musste. Unsere Beobachtungen stützen wir mit vielen Zitaten aus den Akten.

Sämtliche Dokumente, aus denen wir zitieren, haben wir bei DocumentCloud hochgeladen, um sie allen Lesern zugänglich zu machen. Der Dienst erlaubt es, Anmerkungen und direkte Links zu einzelnen Sätzen zu hinterlegen. Auch enthält er eine Texterkennung, die aber aus den oben genannten Gründen nur schlecht funktioniert. Zusätzlich zu den zitierten haben wir Dokumente online gestellt, von denen wir glauben, dass sie für das Verständnis des ganzen Vorgangs wichtig sind. In DocumentCloud können sie nach Jahren sortiert werden. Das ermöglicht einen besseren Überblick.

Das Bild, das so entsteht, ist umfassend – vollständig ist es nicht. Von den Tausenden Akten haben wir nur einen kleinen Teil hochgeladen. Geschwärzt sind darin lediglich die Namen der Personen, um ihre Persönlichkeitsrechte zu schützen. Informationen haben wir nicht entfernt.

Noch eine Anmerkung: Die Mehrzahl der Dokumente trägt den Stempel “VS – Nur für den Dienstgebrauch”. Das ist die niedrigste Geheimhaltungsstufe, die deutsche Ämter vergeben. Die wirklich geheimen Informationen hingegen sind höher eingestuft und als “Geheim” gestempelt. Solche Akten waren in den Dateien nicht enthalten.

Kategorien: Datensatz

Tokio in 150 Gigapixeln

Von 8. August 2013 um 10:45 Uhr
Ausschnitt aus einem zoombaren Panoramabild von Tokio, das der Fotograf Jeffrey Martin aus 8.000 Einzelfotos zusammengebaut hat.

Ausschnitt aus einem zoombaren Panoramabild von Tokio, das der Fotograf Jeffrey Martin aus 8.000 Einzelfotos zusammengebaut hat

8.000 Fotos in zwei Tagen und vier Monate Arbeit am Computer hat der Fotograf Jeffrey Martin in ein einziges Bild gesteckt. Das Ergebnis ist ein wunderschönes und atemberaubendes Panorama von Tokio. Es bietet einen Rundumblick vom Tokio-Tower auf die Stadt, vor allem aber ist es zoombar. Wer will, kann mit einer Drehung des Mausrades an jeden Punkt des Bildes fliegen und Details in erstaunlicher Auflösung darin entdecken.

Das Bild zeigt mehr, als der menschliche Betrachter tatsächlich sehen könnte, stünde er auf dem Tokio-Tower. So zahlreich sind die Eindrücke und Blickwinkel, dass man sich problemlos in dem Bild verlieren kann.

Hier ist der Link zum Panorama.

Ausschnitt aus dem Tokio-Panorama von Jeffrey Martin

Ausschnitt aus dem Tokio-Panorama von Jeffrey Martin

Martin hat die 8.000 Einzelfotos im September 2012 mit einer Canon 7D, einer digitalen Spiegelreflexkamera, aufgenommen. Die stand auf einem speziellen, programmierbaren Stativ namens Clauss Rodeon (hier in Arbeit zu sehen). Das drehte die Kamera und machte dabei mehr als ein Bild pro Sekunde. Als Linse verwendete Martin ein Teleobjektiv mit einer Brennweite von 400 Millimetern.

Anschließend wurden die Bilder am Computer montiert. Martin schreibt in seinem Blog dazu, dass Photoshop maximal Bilder mit einer Breite von 300.000 Pixeln bearbeiten könne. Das Tokiobild aber sei 600.000 Pixel breit. Weswegen es auch gar nicht als eine Datei existiere. Er habe es in zwei Einzeldateien bearbeitet, jede davon 100 Gigabyte groß. Der Computer, den er dazu verwendete, hatte 192 Gigabyte RAM, trotzdem sei die Bearbeitung nicht wirklich reibungslos gelaufen.

Orchidee in einem der Fenster des weißen Hochhauses

Orchidee in einem der Fenster des weißen Hochhauses

Das Panorama, das im Netz zu sehen ist, besteht aus mehr als einer Million Bildkacheln, die nachgeladen werden, wenn der Nutzer darauf zoomt. Würde man das Bild in normaler Fotoqualität drucken, wäre es 50 Meter hoch und 100 Meter breit.

Martin hat verschiedene solcher Panoramen gemacht, unter anderem von London. Er nennt sein Projekt 360Cities, jeder kann dort seine Panoramabilder hochladen.

(via Gedankenstiele)

Kategorien: Datenprojekt

Eric Fischers Geodatenwelten

Von 20. Juni 2013 um 12:00 Uhr
Visualisierte Geodaten von Flickr-Fotos in Berlin: blau sind Bilder von Einheimischen, rot zeigt Bilder von Touristen, gelbe Punkte können nicht zugeordnet werden. CC-BY-SA 2.0 Eric Fischer

Visualisierte Geodaten von Flickr-Fotos in Berlin: blau sind Bilder von Einheimischen, rot zeigt Bilder von Touristen, gelbe Punkte können nicht zugeordnet werden. CC-BY-SA 2.0 Eric Fischer

Handys sind Ortungswanzen. Sie zeigen dank GPS-Satelliten und Sendemast-Triangulation, wo wir uns aufhalten. Dienste wie Twitter oder Flickr speichern diese Daten. Und Menschen wie Eric Fischer machen diese Daten sichtbar und damit auch die menschlichen Wege und Vorlieben. Fischer ist Fotograf, Kartenliebhaber und seit einiger Zeit Datenvisualisierer. Und was er aus Flickr und nun auch Twitter herausholt, sieht nicht nur schön aus, es verdeutlicht auch auf einen Blick komplexes Verhalten.

“Locals and Tourists” heißt sein Projekt. Fischer analysiert, wo in Städten der Welt vor allem Einheimische und wo vor allem Touristen twittern und fotografieren.

Zur Analyse von Twitter nutzte er drei Milliarden Tweets aus der Zeit seit September 2011 und sammelte alle heraus, die einen Geo-Tag enthalten, also die Ortskoordinate, an der die Botschaft abgeschickt wurde. Anschließend filterte der diese Botschaften danach, ob sich der Absender schon länger in der Stadt aufhielt oder erst vor Kurzem dorthin gekommen war. Auch das verraten die Geodaten. So konnte er die Stadtpläne in zwei Farben darstellen: blau für Tweets von Einheimischen, rot für die von Touristen.

Das gleiche hatte Fischer zuvor bereits mit Flickr-Daten gemacht, siehe das Bild am Anfang des Textes. Beide Kartensammlungen zeigen, welche Orte einer Stadt bei welcher Gruppe beliebt sind. Hier beispielsweise in New York:

Visualisierung von Twitter-Geodaten. Wo in New York twitterten Einheimische (blau) und wo twitterten Touristen (rot). Eric Fischer/MapBox

Visualisierung von Twitter-Geodaten. Wo in New York twitterten Einheimische (blau) und wo twitterten Touristen (rot). Eric Fischer/MapBox

Noch spannender sind Fischers Projekte, die bei Twitter genutzte Sprachen und die verwendeten Smartphonetypen visualisieren.

Die Karten zu Betriebssystemen zeigen beispielsweise, dass die USA ein iPhone-Land sind, dass Spanien klar von Android dominiert wird und Indonesien von Blackberry. Solche Informationen hatten bis vor kurzer Zeit nur große Konzerne. Fischer nutzt öffentlich verfügbare Daten, um sie allen zugänglich zu machen. Die Daten sind so detailliert, dass sich in ihnen sogar die ringförmige Bauweise des Flughafenterminals von Berlin-Tegel erkennen lässt.

Flughafen Berlin-Tegel, zu sehen sind Geodaten von Tweets, geschrieben mit einem iPhone (rot) und einem Android-Gerät (grün). Eric Fischer/MapBox

Flughafen Berlin-Tegel, zu sehen sind Geodaten von Tweets, geschrieben mit einem iPhone (rot) und einem Android-Gerät (grün). Eric Fischer/MapBox

Und nicht nur das. Sie zeigen beispielsweise auch, dass iPhones vor allem in reichen Gegenden benutzt werden, Androidgeräte eher in ärmeren, wie der Atlantic in den Daten gesehen hat.

Via @msgbi

Wikipedia: Über Israel und Hitler streitet man überall

Von 28. Mai 2013 um 15:21 Uhr
Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Die Wikipedia ist nicht nur eine Enzyklopädie. Sie ist auch ein soziales Experiment. Da sie dank der Zusammenarbeit vieler Menschen entsteht, bietet sie tiefe Einblicke, wer sich wo und wie stark für ein Thema interessiert. Sie ist ein riesiges Testfeld dafür, wie und worüber Menschen miteinander streiten, wie sie sich einigen und wie sie sich organisieren, um zusammenarbeiten zu können.

Mehrere Wissenschaftler haben genau das untersucht. Taha Yasseri, Anselm Spoerri, Mark Graham und János Kertész beobachteten für ihre Studie sogenannte Edit-Wars, Bearbeitungskriege, bei denen streitende Nutzer die Änderungen der Gegenseite immer wieder umschreiben oder gleich komplett rückgängig machen. Sie wollten wissen, ob es regionale Besonderheiten dabei gibt und was diese Debatten über die Menschen aussagen.

Sie taten das nicht nur, um etwas über Streits bei der Wikipedia zu erfahren, sondern auch um die Streitkultur an sich zu erforschen. Dass Religion und Philosophie die am stärksten debattierten Themen sind, wird niemanden verwundern, aber die Analyse lässt sich noch viel weiter treiben. Schon vorangegangene Untersuchungen haben einen Zusammenhang zwischen der Härte von Wikipedia-Debatten und der politischen und wirtschaftlichen Stabilität eines Landes gezeigt.

Was führt zur Eskalation, welche Verfahren fördern einen Konsens, wie organisieren sich die Gegner? All das könne man anhand von Wikipedia-Daten erforschen, schreiben Yasseri, Spoerri, Graham und Kertész in ihrer Studie, die 2014 in einem Buch erscheinen soll.

Weiter…

Kategorien: Datenforschung

Wo Amerikaner hassen

Von 13. Mai 2013 um 12:23 Uhr
Hate Map - Verteilung von homophoben Tweets zwischen Juni 2012 und April 2013 in den USA

Hate Map – Verteilung von homophoben Tweets zwischen Juni 2012 und April 2013 in den USA

Islamistischer Terrorismus ist nicht der einzige, den die USA fürchten. Mindestens ebenso bedrohlich sind sogenannte Hate Groups, religiöse und rechte Gruppierungen, die sich als Patrioten betrachten und deren Ziel es ist, den amerikanischen Staat und alles, was ihnen fremd erscheint, zu bekämpfen. Ihre Zahl ist in den vergangenen zehn Jahren stark gestiegen, als Barack Obama 2009 Präsident wurde, stieg die Zahl noch einmal stärker.

Eine auf Twitter basierende Studie zeigt nun, wie sich homophobe, rassistische und beleidigende Äußerungen gegenüber Menschen mit Behinderungen in den USA verteilen. Die Daten können zumindest ein Indiz dafür sein, wo solche Organisationen aktiv sind.

Die Forschergruppe, die die Karte erstellt hat, nennt sich Floating Sheep. Es sind fünf Geographen, die an verschiedenen Universitäten in den USA und in Großbritannien arbeiten und die sich immer wieder die Verteilung diverser Phänomenen anschauen und visualisieren.

Weiter…

Bockige Behörden – eine Geschichte auf drei Ebenen

Von 18. April 2013 um 10:10 Uhr

Seit sieben Jahren gilt das Informationsfreiheitsgesetz (IFG), das jedem Bürger das Recht gibt, Akten von Behörden zu sehen und zu erfahren, was die Verwaltung so treibt. Doch noch immer tun sich Ämter schwer damit, Informationen und Daten herauszugeben, sie mauern und tricksen.

ZEIT ONLINE und ZEIT erzählen die Geschichte dieser Blockade auf verschiedenen Wegen. Mit einem Text in der Zeitung und einer längeren Fassung Online und mit einem Interview mit dem Bundesbeauftragten für Informationsfreiheit Peter Schaar. Die Daten, die die Grundlage der Geschichte sind, haben wir außerdem in einer interaktiven Grafik aufbereitet.

Martina Schories hat seitenweise Exceltabellen analysiert und zusammen mit Paul Blickle eine Grafik entworfen, dank der man sich schnell einen Überblick darüber verschaffen kann, welches Ministerium besonders hohe Gebühren verlangt, oder welches viele Anfragen ablehnt. Basis sind Informationen des Bundesinnenministeriums, die auf der dortigen Website jährlich veröffentlicht werden (Hier zum Beispiel aus dem Jahr 2012). Sämtliche von uns verwendeten Daten haben wir hier in einem Google Spreadsheet gesammelt.

Die Programmierung der Grafik übernahmen Stefan Wehrmeyer und Michael Hörz. Beide betreuen die Seite “Frag den Staat”, über die jeder IFG-Anfragen stellen und an Behörden schicken kann. Mit der Materie sind sie also mehr als vertraut.

Neben Text und Grafik gibt es noch eine dritte Ebene. Über unseren anonymen Briefkasten hatte uns ein Leser oder eine Leserin interne Protokolle des Innenministeriums zukommen lassen.

Im BMI trifft sich mindestens zwei Mal im Jahr eine Arbeitsgruppe, um zu beraten, wie mit dem IFG, mit einzelnen Anfragen und mit Gerichtsurteilen zu dem Thema umgegangen werden soll. Die Sitzungen werden stichpunktartig festgehalten. Das PDF-Dokument (das Innenministerium hat uns die Echtheit bestätigt), ist 142 Seiten lang und enthält die Protokolle der Treffen von Januar 2006 bis April 2012. In den Protokollen finden sich viele Andeutungen und Hinweise darauf, wie schwer sich die Ämter mit dem Gesetz und den Informationsforderungen der Bürger tun.

Damit jeder unsere Erkenntnisse nachvollziehen kann, veröffentlichen wir die Protokolle hier im Original. Geschwärzt wurden aufgrund des Persönlichkeitsschutzes lediglich die Namen. Dafür haben wir die Recherche-Plattform DocumentCloud gewählt, auf der Redaktionen namhafter amerikanischer Medien Originaldokumente zur Verfügung stellen. Inzwischen sind dort Millionen Dokumente versammelt. Jedes wird von einer Texterfassungssoftware gescannt. So kann jeder PDFs wie die IFG-Protokolle nach Schlagworten durchsuchen und Kommentare hinzufügen.

ZEIT ONLINE und die Investigativ-Redaktion der ZEIT sind die ersten beiden offiziellen Partner der Plattform in Deutschland. Und die IFG-Protokolle sind das erste Projekt; künftig werden es mehr werden. Schon bald will die Vereinigung Investigative Reporters and Editors (IRE), die DocumentCloud betreibt, eine deutschsprachige Version anbieten. Noch versteht die Texterkennung keine deutschen Umlaute, aber das soll sich ändern.

Fragen und Anregungen gern an einen der drei Autoren: Kai Biermann, Martin Kotynek und Sascha Venohr, der als Head of Data Journalism die drei Ebenen koordiniert hat.

Kategorien: Datenjournalismus

Google veröffentlicht Karten von Nordkorea

Von 29. Januar 2013 um 16:12 Uhr
Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Im Programm Google Earth, das Satellitenbilder der Welt sammelt, war Nordkorea schon lange kein weißer Fleck mehr. Seit Jahren gibt es ein Projekt, das versucht, mehr Informationen über das abgeschottete Land zu sammeln und bei Google Earth einzustellen. Nun sind solche Informationen auch bei Google Maps zu sehen, wo Nordkorea bislang noch terra incognita war.

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Seit Dienstag bietet Google Maps ein vergleichsweise detailliertes Bild des kommunistischen Landes. Gebäude, Straßen, Gulags – was bislang nur in der Software zum Herunterladen zu sehen war, ist nun auch in der Kartenanwendung sichtbar. Dort sind die Bilder zusätzlich mit Straßennamen versehen, oft auf Koreanisch, manchmal aber auch auf Englisch.

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Die Daten sind eine Mischung aus den üblichen Satellitenbildern und Informationen, die Nutzer beigetragen haben. Google bietet ein Programm, mit dessen Hilfe jeder die Karten aktualisieren kann.

Die Schwierigkeit ist, zu bewerten, ob die Daten korrekt sind. Schließlich gibt es keine offiziellen Karten Nordkoreas, mit denen die Angaben verglichen werden könnten. Die Software arbeitet daher so ähnlich wie die Wikipedia – Daten, die ein Nutzer einstellt, können von anderen korrigiert werden. Je mehr bei solchen Projekten mitmachen, desto besser ist die Qualität der gesamten Daten. Im Fall Nordkorea ist das durchaus ein Problem, nicht viele Menschen haben Gelegenheit, das Land zu besuchen.

Im Firmenblog der Kartenanwendung heißt es: “We know this map is not perfect.” Man wisse, dass die Karte nicht perfekt sei, aber jeder sei aufgerufen, sie besser zu machen, um Daten für alle bereitzustellen.

Karten seien wichtig, damit Menschen neue, ihnen unbekannte Regionen der Welt kennenlernen könnten, heißt es in dem Blogpost. Nordkorea war die bislang wohl unbekannteste Region. Bei Google Maps zumindest war es das letzte unkartographierte Land.

Nordkoreanern selbst wird das nichts nützen, normale Bürger haben dort keinen Zugang zum Internet, schon gar nicht mobil. Google schreibt, die Daten seien vor allem für Südkoreaner interessant, die Verwandte im Norden haben.

Kategorien: Datenquelle

Ja, wo twittern sie denn?

Von 11. Januar 2013 um 17:10 Uhr
Tweets über Manchester United (rot) und Manchester City (blau)

Tweets über Manchester United (rot) und Manchester City (blau)

Wo sind die wahren Fans von ManU? Oder die von Arsenal? Ist Manchester City wirklich der beliebteste Club in der Region von Manchester, oder ist es nicht doch eher Manchester United? Wissenschaftler am Oxford Internet Institute haben Tweets ausgewertet, um darüber eine Aussage treffen zu können.

Dazu analysierten sie alle Tweets, die zwischen dem 18. August und dem 19. Dezember 2012 versendet wurden und die sich einer Geokoordinate zuordnen ließen, weil der Twitterer das eingestellt hatte. Gesucht wurden Botschaften, die sich mit einem der Clubs der britischen Premier League beschäftigten. Anschließend wurden sie nach Postleitzahlen sortiert. Auf der daraus erstellten interaktiven Karte ist zu sehen, in welchen Postleitzahlenbereichen Botschaften zu welchem Club überwogen.

Auch haben sie klassische Rivalitäten visualisiert, wie eben die zwischen ManU und Manchester City. Oder die zwischen Arsenal und Tottenham.

Und so ist man offensichtlich im Westen von Manchester eher für ManU und im Osten eher für Manchester City. Die Forscher schreiben: “In Manchester gibt es das oft zitierte Stereotyp, Manchester City seien die wahren Lokalhelden, Manchester United werde eher von Leuten unterstützt, die woanders lebten. Unsere Karte unterstützt diese Sicht nicht unbedingt. Es gibt nur wenige Orte in der Region, wo Manchester City signifikant häufiger in Tweets erwähnt wurde als ihr Rivale. Seltsamerweise sehen wir in Schottland und Merseyside mehr Unterstützung für Manchester City, und in Nordirland mehr für Manchester United.”

Das mag wie eine Spielerei wirken. Doch es belegt, dass Twitter dazu dienen kann, ein Stimmungsbild zu zeigen. Zumindest ein ungefähres. Denn die Stimmungsanalyse von Tweets ist nicht so einfach. Der Algorithmus muss erkennen, ob der Text wirklich einen Verein unterstüzt, oder sich nur über ihn lustig macht. Daher schreiben die Wissenschaftler auch, dass ihre Daten unsauber sind. Trotzdem sind sie überzeugt, dass sich so Mythen widerlegen und Einsichten gewinnen lassen.

Kategorien: Datenvisualisierung

Punkte, Linien, Listen

Von 29. November 2012 um 13:46 Uhr

Verteilung des Wortes "Computer" in Texten von ZEIT und ZEIT ONLINE zwischen 1950 und 2012 Quelle: http://impactdevelopment.de/labs/zeit-online-api-demo/

Seit einer Woche ist unsere Text-Schnittstelle online und inzwischen gibt es eine ganze Reihe von Ideen, was sich mit dieser API und den dahinter liegenden Daten anstellen lässt. Einige sind so schön, dass wir sie etwas ausführlicher vorstellen wollen.

In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am naheliegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt.

Thomas Pfeiffer (@codeispoetry) von den Webevangelisten hat eine Seite gebaut, die eine Häufigkeitskurve ausgibt. Welche Begriffe sie anzeigen soll, bestimmt der Nutzer. Genau wie den Zeitraum, der untersucht werden soll. Wer will, kann mehrere Wörter gegeneinander laufen lassen, sie werden in der Eingabe dann mit Komma getrennt.

Hier zum Beispiel “Helmut Kohl” gegen “Angela Merkel”:

Häufigkeit der Ausdrücke "Helmut Kohl" und "Angela Merkel" im Textarchiv von 1946 bis 2012. Quelle: http://webevangelisten.de/zeitapi/

Und, weil es so schön ist, hier noch ein Vergleich, “Apple” gegen “Microsoft”:

Häufigkeit der Begriffe "Apple" und "Microsoft" von 2008 bis 2012. Quelle: http://webevangelisten.de/zeitapi/?q=Apple%2C+Microsoft&s=2008&e=2012

Die gleiche Idee hatten die beiden Webentwickler von Impactdevelopment. Ihre Seite ermittelt ebenfalls Worthäufigkeiten, wirft jedoch eine Punktwolke aus.

Das Beispiel im Bild oben stammt von ihnen, es ist die Häufigkeit des Ausdruck “Computer”. Der erlebte demnach ganz offensichtlich zwischen Mitte der Achtziger und Mitte der Neunziger einen ersten Höhepunkt und ist seit 2008 geradezu inflationär.

Praktischerweise lässt sich nicht nur die Wort-Menge erfassen. Wer auf einen der Punkte klickt, erhält eine Übersicht mit den entsprechenden Artikeln samt Überschrift, Vorspann und Link. Außerdem kann die Grafik über einen Menüknopf als JPG, PNG, PDF und SVG heruntergeladen werden. Leider gibt es aber keinen Permanentlink zu den Suchergebnissen. Und werden mehrere Begriffe in das Suchfeld eingegeben, sucht die Maske nach Texten, in denen sie gemeinsam vorkommen. Gegeneinander laufen lassen kann man sie nicht.

Mila Frerichs analysiert mit seinem Werkzeug allein die Häufigkeit von politischen Parteien im Textkorpus. Nach Monat und Jahr sortiert wird ihr Auftauchen in Texten als Kurve angezeigt. Die dazu gehörenden Artikel gibt es unter der Grafik mit Überschrift, Vorspann und Link.

Zahl der Texte pro Monat und Jahr, die sich mit einer Partei befassen. Quelle: http://zeitparteien.herokuapp.com/

Das klappt prima, solange es nicht um die Piraten geht. Die tauchen schon lange vor der Parteigründung 2006 in Texten auf, im klassischen Zusammenhang. Die Abfrage unterscheidet jedoch nicht zwischen Seeräubern und Politikern.

Interessant ist die Jahresübersicht. So wurden 2010 und 2011 vor allem CDU und FDP in Artikeln erwähnt, 2012 hingegen führt die SPD in vielen Monaten die Erwähnungsliste an.

Die Häufigkeit von Städten und Ländern hat Newstral ausgewertet. Auf einer Weltkarte wird dargestellt, aus welchen Regionen wie viele Nachrichten berichten. Erfasst sind die Jahre 2010 bis 2012.

Nennung von Städten und Ländern in Texten von ZEIT und ZEIT ONLINE. Quelle: http://newstral.com/de/maps/

Die Karte vermittelt einen ganz guten Überblick, wo die Schwerpunkte der Berichterstattung liegen, es sind offensichtlich Deutschland und die USA. In Afrika wird es eher dünn.

Es gibt bereits einige Werkzeuge mehr, die die Schnittstelle nutzen.

Ein hinreißende Idee hatte Stefan Wehrmeyer, der die Seite Frag den Staat! betreibt. Er baut aus den Archivtexten ein Spiel. Drei Begriffe aus einem beliebigen Text müssen in einer Buchstabenmatrix wiedergefunden werden. Leider ist das Programm fehlerhaft, manchmal versteckt es nur zwei Begriffe in der zufällig erzeugten Matrix, manchmal fünf – wobei sich dann nicht alle korrekt markieren lassen.

Wortsuche in der Buchstaben-Matrix, basierend auf Artikeln. Quelle: http://stefanwehrmeyer.com/projects/zeitwort/

Trotzdem ist es ein Beispiel, das demonstriert, welche Möglichkeiten in einer offenen Schnittstelle stecken. Nun fehlen noch Anwendungen, die versuchen, verschiedene Aspekte miteinander zu verknüpfen. Also beispielsweise zeitliche oder inhaltliche Zusammenhänge. Wie viele Berichte gibt es zu Flugzeugabstürzen, und sind es mehr oder weniger als zu Zugunglücken? Spannend wäre sicher auch eine sogenannte Sentiment Analyse: Sind Texte über Angela Merkel eher positiv oder eher negativ?

Kategorien: Datenvisualisierung