Entwicklungsblog von ZEIT ONLINE

Autoren Archiv von Cornelius Baier

Die Digitalisierung des ZEIT Archivs

Von 19. November 2012 um 10:15 Uhr

Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess.

Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der Ausgabe 01/1946 auf www.zeit.de zu veröffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT gescannt. Aus daraus entstandenen pdf-Dateien wurden mithilfe einer Software für Optical Content Recognition (OCR) die Texte extrahiert.

Die Ergebnisse waren jedoch zum Teil qualitativ schlecht. Denn aufgrund des variierenden Layouts der ZEIT war für die Software  schlecht erkennbar, wo ein Artikel anfing beziehungsweise endete. Auch wurden Anzeigen oft fälschlich als Artikel erkannt. Wegen der teilweise schlechten Papierqualität und Mängeln der eingesetzten Software waren die Scans schwer zu lesen. Außerdem wurden Seiten manchmal gleich schräg eingescannt. Beispiele für schlechte Scans finden sich hier und hier.

Obwohl das Ergebnis des Projekts nicht vollständig befriedigend war, wurden die Texte online gestellt. Aus damaliger Sicht eine  sinnvolle Option, um unter Berücksichtigung der limitierten Ressourcen dennoch den Zugang zum Archiv zu ermöglichen. Um den Usern die teils schlechte Textqualität zu erklären, wurde in den maschinell aus Dateien extrahierten Texten auf ZEIT ONLINE auf die Entstehung hingewiesen und ein Link auf die Scan-Datei des Artikels angeboten. Hier ein Screenshot des Hinweistextes:

Seit 2009 arbeitet ZEIT ONLINE kontinuierlich daran, die Textqualität des Archivs der ZEIT zu verbessern. In einem ersten Schritt wurden per Hand Rahmen auf die vorhandenen Bilddateien gezogen, um Artikel von anderen Elementen zu separieren. Anschließend wurden die Bilddateien erneut mit der Software für OCR bearbeitet. So wurde das Problem ineinander fließender Artikeltexte gelöst.

Die Textqualität war aber noch nicht ausreichend. Als problematisch erwies sich die geringe Auflösung der Bilddateien und die schlechte Qualität des abgescannten Papiers. Der Einsatz der  OCR-Software war schwierig. Im Projektverlauf kontaktierte ZEIT ONLINE unterschiedliche Dienstleister aus dem OCR-Bereich, aber keiner konnte auf Basis der vorhandenen Bilddateien akzeptable Textqualität liefern. Die Forderung war, wir müssten entweder die Seiten noch einmal scannen oder die Texte per Hand abtippen. Erneutes Scannen kam jedoch nicht in Frage, da es von vielen ZEIT-Ausgaben nur noch ein Exemplar gibt, das nicht zur Verfügung gestellt werden kann. Auch Abtippen ist bei 225.000 Artikeln im ZEIT-Archiv nicht finanzierbar.

Nach monatelanger Suche wurde uns vom Staatsarchiv Baden-Württemberg die Firma Editura in Berlin empfohlen. Editura testete unsere Bilddateien mit einer selbstentwickelten Software und erzielte gleich beim ersten Versuch eine gesteigerte Textqualität. Nach einigen Wochen der Konzeption wurde mit Editura ein Vertrag über die Überarbeitung des Archivs geschlossen – und zwar auf Basis der vorhandenen Bilddateien.

Aus ihnen wurden die Texte erneut extrahiert, anschließend wurde mit von Editura entwickelten Algorithmen die Textqualität verbessert. Das Ergebnis wurden manuell auf Fehler geprüft, so dass eine Fehlerfreiheit (Zeichenübereinstimmung mit der Vorlage) von 99,95% auf alle Zeichen, also Buchstaben, Zahlen, Satzzeichen und Leerzeichen, entstand. Das bedeutet, dass es bei Archiv-Artikeln der ZEIT pro 2.000 Zeichen maximal ein falsches Zeichen geben darf.

Die Überarbeitung der Texte durch Editura dauerte ungefähr sechs Monate. Über eine zur Verfügung gestellte Schnittstelle konnte ZEIT ONLINE während des Projektzeitraumes fertiggestellte Artikel aus dem Editura-System ins ZEIT-ONLINE-CMS importieren und auf der Website veröffentlichen. Das Projekt ist zum Zeitpunkt der Veröffentlichung dieses Artikels bis auf rund 10.000 Artikel abgeschlossen. Die von Editura überarbeiteten Artikel wurden zeitnah auf der Website veröffentlicht, so dass ZEIT-ONLINE-Usern jetzt das gesamte Archiv der ZEIT in sehr guter Qualität zur Verfügung steht.

Nun wollen wir Konzepte entwickelt, wie wir Usern die Navigation durch diese große Textemenge erleichtern können. Natürlich lässt sich über die Suchfunktion von ZEIT ONLINE auf die Artikel zugreifen. Das ermöglicht aber nur ein stichprobenartiges Erleben der Texte, denn gewöhnlich springen Nutzer aus dem Suchergebnis auf einen Artikel, gehen dann zurück zum Suchergebnis, um von dort einen neuen Artikel aufzurufen. Eine Idee könnte es daher sein, sinnvolle Themen-Cluster zu entwickeln und anzubieten. Auch Formate wie “DIE ZEIT heute vor 30 Jahren” wären denkbar.

Kategorien: Entwicklung