Offene Daten – offene Gesellschaft

ZEIT ONLINE startet eine Text-API

Von 23. November 2012 um 14:03 Uhr

Namen, die in Texten von Zeit und Zeit Online vorkommen, sortiert nach ihrer Häufigkeit

ZEIT ONLINE hat ab sofort eine Content-API. Klingt langweilig? Nun, es kommt sehr darauf an, was andere daraus machen. Eine API ist ein Zugang, eine Möglichkeit, bestimmte Informationen automatisiert abzufragen. Auf der Seite http://developer.zeit.de/ findet sich nun eine solche API und sie ist der Zugang zu allen Texten, die in der ZEIT (seit 1946) und bei ZEIT ONLINE (seit 1996) erschienen sind.

Dank dieser Schnittstelle kann nun jeder alle Texte mit Hilfe von Programmen durchsuchen und analysieren. Eine REST-API gibt Metadaten wie Autor, Kategorien oder Schlagworte aus. In der Beta-Version der API ist es aus rechtlichen Gründen leider nicht möglich, auch den Volltext auszugeben und zu speichern. Aber wer ein Projekt plant, für das die Übernahme des Volltextes von Artikeln nötig ist, kann unter api@zeit.de jederzeit Kontakt aufnehmen.

Warum tun wir das? Wir glauben, dass in den hunderttausenden Artikeln noch viele spannende Informationen verborgen sind. Örtliche oder inhaltliche Zusammenhänge, Zeitbezüge – durch eine Verknüpfung können Dinge sichtbar werden, die beim einfachen Lesen nicht unbedingt zutage treten.

Beispielsweise durch Visualisierungen. Oder durch Langzeitbeobachtungen. Wie oft tauchte der Begriff “China” in den vergangenen 66 Jahren in unseren Texten auf? Und in welchen Zusammenhängen? Wie hat sich also das China-Bild der Redaktion und vielleicht also auch das deutsche China-Bild in dieser Zeit gewandelt?

Die automatisierte Abfrage stellt die Technik bereit, um solche Informationen finden zu können. Nun braucht es nur noch Fragen.

Anwendungen und Visualisierungen, die aus der Arbeit mit der API entstehen, sammeln wir auf dieser Seite. (Nachtrag: Was natürlich bedeutet, dass wir uns über jeden freuen, der uns das Ergebnis seiner Arbeit zeigt.)

Die Bedingungen, unter denen die Nutzung der Schnittstelle möglich ist, finden Sie hier.

Informationen über die weitere Arbeit an der API finden sich nebenan, im Entwicklerblog von ZEIT ONLINE.

Kategorien: Datenquelle
Leser-Kommentare
  1. 1.

    [...] Einige der vielen erfreulichen Tweets zum Launch er API: Wir haben jetzt ‘ne API zum Herumspielen mit allen Texten von ZEIT und ZEIT Online. Und ja, ich finde das verdammt cool blog.zeit.de/open-data/2012… [...]

  2. 2.

    Grossartig, vielen Dank dafür!

    • 23. November 2012 um 17:14 Uhr
    • Frank Lutterloh
  3. 3.

    Hi, das sieht sehr nett aus. Auch der Explorer ist gut durchdacht. Habt ihr überlegt bzgl. der Representationen ein mehr standardisiertes Hypermediaformat wie HAL [0] zu verwenden? Das würde es einfacher machen generische Clients zu bauen, die Daten evtl. mit denen anderer Dienste verknüpfen. Wird es auch eine Unterstützung für XML basierte Representationen (z.b. Atom) geben?

    [0] http://stateless.co/hal_specification.html

    • 23. November 2012 um 17:22 Uhr
    • Oliver Gierke
  4. 4.

    Find ich gut! Nur stellt euch mal vor, ihr hättet diesen Schritt schon im Jahr 2006 gemacht, überlegt mal!

    • 23. November 2012 um 17:43 Uhr
    • Michael
  5. 5.

    [...] der Print-Zeit seit 1946 und allen Texten bei Zeit.de seit 1996. Im Open Data-Blog bei Zeit.de erklärt Kai Biermann den Sinn und die Motivation: Warum tun wir das? Wir glauben, dass in den hunderttausenden Artikeln noch viele spannende [...]

  6. 6.

    2006? achja, da hatte ich tagesschau.de vorgeschlagen, eine API anzubieten. 2012 haben sie eine, aber ohne sie öffentlich zu machen. WTF.

    Gratulation, zeit.de. So muss das sein.

    • 23. November 2012 um 19:05 Uhr
    • igor
  7. 7.

    Noch ist nicht so richtig klar, was der bevorzugte Kanal für Feedback zur API ist. Aber was soll’s, wird schon ankommen.

    Erst mal vielen Dank dafür und Glückwunsch zur API!

    Ich möchte anmerken, dass die Ausgabe der /content Methode unter “relations” offensichtlich immer das gleiche “name” Attribut, nämlich den Titel des gerade abgerufenen Artikels (und nicht des “related” Artikels) enthält.

    Und es ist doch schade, dass unter /content die Volltexte nicht ausgegeben werden. Müssen wir uns jetzt doch alle Scraper und Crawler schreiben, die dann in Summe ZEIT.de lahm legen? Oder gibt es ein bestimmtes Feld, das man explizit für die Ausgabe benennen muss?

    • 24. November 2012 um 00:40 Uhr
    • marian
  8. 8.

    Sollte doch die gleiche Anzahl sein, nein?

    588 Artikel via http://www.zeit.de/autoren/M/Harald_Martenstein/index.xml

    “uri”: “http://api.zeit.de/author/Harald-Martenstein”, “found”: 59

    • 24. November 2012 um 01:05 Uhr
    • derivat
  9. Kommentar zum Thema

    (erforderlich)

    (wird nicht veröffentlicht) (erforderlich)

    (erforderlich)