Seit einer Woche ist unsere Text-Schnittstelle online und inzwischen gibt es eine ganze Reihe von Ideen, was sich mit dieser API und den dahinter liegenden Daten anstellen lässt. Einige sind so schön, dass wir sie etwas ausführlicher vorstellen wollen.
In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am naheliegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt.
Thomas Pfeiffer (@codeispoetry) von den Webevangelisten hat eine Seite gebaut, die eine Häufigkeitskurve ausgibt. Welche Begriffe sie anzeigen soll, bestimmt der Nutzer. Genau wie den Zeitraum, der untersucht werden soll. Wer will, kann mehrere Wörter gegeneinander laufen lassen, sie werden in der Eingabe dann mit Komma getrennt.
Hier zum Beispiel „Helmut Kohl“ gegen „Angela Merkel“:
Und, weil es so schön ist, hier noch ein Vergleich, „Apple“ gegen „Microsoft“:
Die gleiche Idee hatten die beiden Webentwickler von Impactdevelopment. Ihre Seite ermittelt ebenfalls Worthäufigkeiten, wirft jedoch eine Punktwolke aus.
Das Beispiel im Bild oben stammt von ihnen, es ist die Häufigkeit des Ausdruck „Computer“. Der erlebte demnach ganz offensichtlich zwischen Mitte der Achtziger und Mitte der Neunziger einen ersten Höhepunkt und ist seit 2008 geradezu inflationär.
Praktischerweise lässt sich nicht nur die Wort-Menge erfassen. Wer auf einen der Punkte klickt, erhält eine Übersicht mit den entsprechenden Artikeln samt Überschrift, Vorspann und Link. Außerdem kann die Grafik über einen Menüknopf als JPG, PNG, PDF und SVG heruntergeladen werden. Leider gibt es aber keinen Permanentlink zu den Suchergebnissen. Und werden mehrere Begriffe in das Suchfeld eingegeben, sucht die Maske nach Texten, in denen sie gemeinsam vorkommen. Gegeneinander laufen lassen kann man sie nicht.
Mila Frerichs analysiert mit seinem Werkzeug allein die Häufigkeit von politischen Parteien im Textkorpus. Nach Monat und Jahr sortiert wird ihr Auftauchen in Texten als Kurve angezeigt. Die dazu gehörenden Artikel gibt es unter der Grafik mit Überschrift, Vorspann und Link.
Das klappt prima, solange es nicht um die Piraten geht. Die tauchen schon lange vor der Parteigründung 2006 in Texten auf, im klassischen Zusammenhang. Die Abfrage unterscheidet jedoch nicht zwischen Seeräubern und Politikern.
Interessant ist die Jahresübersicht. So wurden 2010 und 2011 vor allem CDU und FDP in Artikeln erwähnt, 2012 hingegen führt die SPD in vielen Monaten die Erwähnungsliste an.
Die Häufigkeit von Städten und Ländern hat Newstral ausgewertet. Auf einer Weltkarte wird dargestellt, aus welchen Regionen wie viele Nachrichten berichten. Erfasst sind die Jahre 2010 bis 2012.
Die Karte vermittelt einen ganz guten Überblick, wo die Schwerpunkte der Berichterstattung liegen, es sind offensichtlich Deutschland und die USA. In Afrika wird es eher dünn.
Es gibt bereits einige Werkzeuge mehr, die die Schnittstelle nutzen.
Ein hinreißende Idee hatte Stefan Wehrmeyer, der die Seite Frag den Staat! betreibt. Er baut aus den Archivtexten ein Spiel. Drei Begriffe aus einem beliebigen Text müssen in einer Buchstabenmatrix wiedergefunden werden. Leider ist das Programm fehlerhaft, manchmal versteckt es nur zwei Begriffe in der zufällig erzeugten Matrix, manchmal fünf – wobei sich dann nicht alle korrekt markieren lassen.
Trotzdem ist es ein Beispiel, das demonstriert, welche Möglichkeiten in einer offenen Schnittstelle stecken. Nun fehlen noch Anwendungen, die versuchen, verschiedene Aspekte miteinander zu verknüpfen. Also beispielsweise zeitliche oder inhaltliche Zusammenhänge. Wie viele Berichte gibt es zu Flugzeugabstürzen, und sind es mehr oder weniger als zu Zugunglücken? Spannend wäre sicher auch eine sogenannte Sentiment Analyse: Sind Texte über Angela Merkel eher positiv oder eher negativ?