Offene Daten – offene Gesellschaft

Punkte, Linien, Listen

Von 29. November 2012 um 13:46 Uhr

Verteilung des Wortes "Computer" in Texten von ZEIT und ZEIT ONLINE zwischen 1950 und 2012 Quelle: http://impactdevelopment.de/labs/zeit-online-api-demo/

Seit einer Woche ist unsere Text-Schnittstelle online und inzwischen gibt es eine ganze Reihe von Ideen, was sich mit dieser API und den dahinter liegenden Daten anstellen lässt. Einige sind so schön, dass wir sie etwas ausführlicher vorstellen wollen.

In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am naheliegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt.

Thomas Pfeiffer (@codeispoetry) von den Webevangelisten hat eine Seite gebaut, die eine Häufigkeitskurve ausgibt. Welche Begriffe sie anzeigen soll, bestimmt der Nutzer. Genau wie den Zeitraum, der untersucht werden soll. Wer will, kann mehrere Wörter gegeneinander laufen lassen, sie werden in der Eingabe dann mit Komma getrennt.

Hier zum Beispiel “Helmut Kohl” gegen “Angela Merkel”:

Häufigkeit der Ausdrücke "Helmut Kohl" und "Angela Merkel" im Textarchiv von 1946 bis 2012. Quelle: http://webevangelisten.de/zeitapi/

Und, weil es so schön ist, hier noch ein Vergleich, “Apple” gegen “Microsoft”:

Häufigkeit der Begriffe "Apple" und "Microsoft" von 2008 bis 2012. Quelle: http://webevangelisten.de/zeitapi/?q=Apple%2C+Microsoft&s=2008&e=2012

Die gleiche Idee hatten die beiden Webentwickler von Impactdevelopment. Ihre Seite ermittelt ebenfalls Worthäufigkeiten, wirft jedoch eine Punktwolke aus.

Das Beispiel im Bild oben stammt von ihnen, es ist die Häufigkeit des Ausdruck “Computer”. Der erlebte demnach ganz offensichtlich zwischen Mitte der Achtziger und Mitte der Neunziger einen ersten Höhepunkt und ist seit 2008 geradezu inflationär.

Praktischerweise lässt sich nicht nur die Wort-Menge erfassen. Wer auf einen der Punkte klickt, erhält eine Übersicht mit den entsprechenden Artikeln samt Überschrift, Vorspann und Link. Außerdem kann die Grafik über einen Menüknopf als JPG, PNG, PDF und SVG heruntergeladen werden. Leider gibt es aber keinen Permanentlink zu den Suchergebnissen. Und werden mehrere Begriffe in das Suchfeld eingegeben, sucht die Maske nach Texten, in denen sie gemeinsam vorkommen. Gegeneinander laufen lassen kann man sie nicht.

Mila Frerichs analysiert mit seinem Werkzeug allein die Häufigkeit von politischen Parteien im Textkorpus. Nach Monat und Jahr sortiert wird ihr Auftauchen in Texten als Kurve angezeigt. Die dazu gehörenden Artikel gibt es unter der Grafik mit Überschrift, Vorspann und Link.

Zahl der Texte pro Monat und Jahr, die sich mit einer Partei befassen. Quelle: http://zeitparteien.herokuapp.com/

Das klappt prima, solange es nicht um die Piraten geht. Die tauchen schon lange vor der Parteigründung 2006 in Texten auf, im klassischen Zusammenhang. Die Abfrage unterscheidet jedoch nicht zwischen Seeräubern und Politikern.

Interessant ist die Jahresübersicht. So wurden 2010 und 2011 vor allem CDU und FDP in Artikeln erwähnt, 2012 hingegen führt die SPD in vielen Monaten die Erwähnungsliste an.

Die Häufigkeit von Städten und Ländern hat Newstral ausgewertet. Auf einer Weltkarte wird dargestellt, aus welchen Regionen wie viele Nachrichten berichten. Erfasst sind die Jahre 2010 bis 2012.

Nennung von Städten und Ländern in Texten von ZEIT und ZEIT ONLINE. Quelle: http://newstral.com/de/maps/

Die Karte vermittelt einen ganz guten Überblick, wo die Schwerpunkte der Berichterstattung liegen, es sind offensichtlich Deutschland und die USA. In Afrika wird es eher dünn.

Es gibt bereits einige Werkzeuge mehr, die die Schnittstelle nutzen.

Ein hinreißende Idee hatte Stefan Wehrmeyer, der die Seite Frag den Staat! betreibt. Er baut aus den Archivtexten ein Spiel. Drei Begriffe aus einem beliebigen Text müssen in einer Buchstabenmatrix wiedergefunden werden. Leider ist das Programm fehlerhaft, manchmal versteckt es nur zwei Begriffe in der zufällig erzeugten Matrix, manchmal fünf – wobei sich dann nicht alle korrekt markieren lassen.

Wortsuche in der Buchstaben-Matrix, basierend auf Artikeln. Quelle: http://stefanwehrmeyer.com/projects/zeitwort/

Trotzdem ist es ein Beispiel, das demonstriert, welche Möglichkeiten in einer offenen Schnittstelle stecken. Nun fehlen noch Anwendungen, die versuchen, verschiedene Aspekte miteinander zu verknüpfen. Also beispielsweise zeitliche oder inhaltliche Zusammenhänge. Wie viele Berichte gibt es zu Flugzeugabstürzen, und sind es mehr oder weniger als zu Zugunglücken? Spannend wäre sicher auch eine sogenannte Sentiment Analyse: Sind Texte über Angela Merkel eher positiv oder eher negativ?

Kategorien: Datenvisualisierung
Leser-Kommentare
  1. 1.

    [...] Themen Andreas Kilb, FAZ | Kai Biermann, Data Blog [...]

  2. Kommentar zum Thema

    (erforderlich)

    (wird nicht veröffentlicht) (erforderlich)

    (erforderlich)