Entwicklungsblog von ZEIT ONLINE

Archive für November, 2012

Launch der ZEIT ONLINE Content-API beim Hackday

Von 23. November 2012 um 14:00 Uhr

Screenshot von developer.zeit.de mit einer API-Schlagwort Visualisierung von Gregor Aisch

Pünktlich zum Start des Hackdays im Newsroom von ZEIT ONLINE am Askanischen Platz 1 in Berlin ist die Beta-Version der Content-API freigeschaltet. Die API ist über developer.zeit.de aufrufbar. Dort finden sich alle Informationen, die für die Nutzung der offenen Schnittstelle von ZEIT ONLINE notwendig sind.
Nebenan im Data-Blog hat Kai Biermann einen schönen Überblick über die Möglichkeiten der API geschrieben.

Hier im Blog werden wir Eindrücke vom Hackday sammeln und freuen uns über Kommentare. Der Hashtag bei Twitter ist #zonapi.

Einige der vielen erfreulichen Tweets zum Launch der API:

Und einige Eindrücke:

Hackday Eindrücke

Hackday Eindrücke - Teilnehmer mit Laptops

Kategorien: API, Veranstaltungen

Die Digitalisierung des ZEIT Archivs

Von 19. November 2012 um 10:15 Uhr

Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess.

Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der Ausgabe 01/1946 auf www.zeit.de zu veröffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT gescannt. Aus daraus entstandenen pdf-Dateien wurden mithilfe einer Software für Optical Content Recognition (OCR) die Texte extrahiert.

Die Ergebnisse waren jedoch zum Teil qualitativ schlecht. Denn aufgrund des variierenden Layouts der ZEIT war für die Software  schlecht erkennbar, wo ein Artikel anfing beziehungsweise endete. Auch wurden Anzeigen oft fälschlich als Artikel erkannt. Wegen der teilweise schlechten Papierqualität und Mängeln der eingesetzten Software waren die Scans schwer zu lesen. Außerdem wurden Seiten manchmal gleich schräg eingescannt. Beispiele für schlechte Scans finden sich hier und hier.

Obwohl das Ergebnis des Projekts nicht vollständig befriedigend war, wurden die Texte online gestellt. Aus damaliger Sicht eine  sinnvolle Option, um unter Berücksichtigung der limitierten Ressourcen dennoch den Zugang zum Archiv zu ermöglichen. Um den Usern die teils schlechte Textqualität zu erklären, wurde in den maschinell aus Dateien extrahierten Texten auf ZEIT ONLINE auf die Entstehung hingewiesen und ein Link auf die Scan-Datei des Artikels angeboten. Hier ein Screenshot des Hinweistextes:

Seit 2009 arbeitet ZEIT ONLINE kontinuierlich daran, die Textqualität des Archivs der ZEIT zu verbessern. In einem ersten Schritt wurden per Hand Rahmen auf die vorhandenen Bilddateien gezogen, um Artikel von anderen Elementen zu separieren. Anschließend wurden die Bilddateien erneut mit der Software für OCR bearbeitet. So wurde das Problem ineinander fließender Artikeltexte gelöst.

Die Textqualität war aber noch nicht ausreichend. Als problematisch erwies sich die geringe Auflösung der Bilddateien und die schlechte Qualität des abgescannten Papiers. Der Einsatz der  OCR-Software war schwierig. Im Projektverlauf kontaktierte ZEIT ONLINE unterschiedliche Dienstleister aus dem OCR-Bereich, aber keiner konnte auf Basis der vorhandenen Bilddateien akzeptable Textqualität liefern. Die Forderung war, wir müssten entweder die Seiten noch einmal scannen oder die Texte per Hand abtippen. Erneutes Scannen kam jedoch nicht in Frage, da es von vielen ZEIT-Ausgaben nur noch ein Exemplar gibt, das nicht zur Verfügung gestellt werden kann. Auch Abtippen ist bei 225.000 Artikeln im ZEIT-Archiv nicht finanzierbar.

Nach monatelanger Suche wurde uns vom Staatsarchiv Baden-Württemberg die Firma Editura in Berlin empfohlen. Editura testete unsere Bilddateien mit einer selbstentwickelten Software und erzielte gleich beim ersten Versuch eine gesteigerte Textqualität. Nach einigen Wochen der Konzeption wurde mit Editura ein Vertrag über die Überarbeitung des Archivs geschlossen – und zwar auf Basis der vorhandenen Bilddateien.

Aus ihnen wurden die Texte erneut extrahiert, anschließend wurde mit von Editura entwickelten Algorithmen die Textqualität verbessert. Das Ergebnis wurden manuell auf Fehler geprüft, so dass eine Fehlerfreiheit (Zeichenübereinstimmung mit der Vorlage) von 99,95% auf alle Zeichen, also Buchstaben, Zahlen, Satzzeichen und Leerzeichen, entstand. Das bedeutet, dass es bei Archiv-Artikeln der ZEIT pro 2.000 Zeichen maximal ein falsches Zeichen geben darf.

Die Überarbeitung der Texte durch Editura dauerte ungefähr sechs Monate. Über eine zur Verfügung gestellte Schnittstelle konnte ZEIT ONLINE während des Projektzeitraumes fertiggestellte Artikel aus dem Editura-System ins ZEIT-ONLINE-CMS importieren und auf der Website veröffentlichen. Das Projekt ist zum Zeitpunkt der Veröffentlichung dieses Artikels bis auf rund 10.000 Artikel abgeschlossen. Die von Editura überarbeiteten Artikel wurden zeitnah auf der Website veröffentlicht, so dass ZEIT-ONLINE-Usern jetzt das gesamte Archiv der ZEIT in sehr guter Qualität zur Verfügung steht.

Nun wollen wir Konzepte entwickelt, wie wir Usern die Navigation durch diese große Textemenge erleichtern können. Natürlich lässt sich über die Suchfunktion von ZEIT ONLINE auf die Artikel zugreifen. Das ermöglicht aber nur ein stichprobenartiges Erleben der Texte, denn gewöhnlich springen Nutzer aus dem Suchergebnis auf einen Artikel, gehen dann zurück zum Suchergebnis, um von dort einen neuen Artikel aufzurufen. Eine Idee könnte es daher sein, sinnvolle Themen-Cluster zu entwickeln und anzubieten. Auch Formate wie “DIE ZEIT heute vor 30 Jahren” wären denkbar.

Kategorien: Entwicklung

ZEIT ONLINE Hackday: 23. November 14:00

Von 15. November 2012 um 15:00 Uhr

Der erste ZEIT ONLINE Hackday findet am Freitag, 23. November von 14:00 bis 18:00 im Newsroom am Askanischen Platz 1 in Berlin statt (S-Bahn: Station Anhalter Bahnhof).

Am Hackday wird die Content-API von ZEIT ONLINE in einer Beta-Version vorgestellt. Nach einer kurzen Informationsweitergabe zu Entstehung und Aufbau der API kann diese vor Ort live ausprobiert werden. Die Beta-Version der API wird nach dem Hackday öffentlich bereitgestellt.
 Die Entwickler von ZEIT ONLINE stehen für Fragen und Anregungen zur API zur Verfügung.

Die Teilnahme an der Veranstaltung ist kostenlos, wir bitten aber um eine Anmeldung zum Hackday.

Kategorien: API, Veranstaltungen