‹ Alle Einträge

Die Digitalisierung des ZEIT Archivs

 

Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess.

Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der Ausgabe 01/1946 auf www.zeit.de zu veröffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT gescannt. Aus daraus entstandenen pdf-Dateien wurden mithilfe einer Software für Optical Content Recognition (OCR) die Texte extrahiert.

Die Ergebnisse waren jedoch zum Teil qualitativ schlecht. Denn aufgrund des variierenden Layouts der ZEIT war für die Software  schlecht erkennbar, wo ein Artikel anfing beziehungsweise endete. Auch wurden Anzeigen oft fälschlich als Artikel erkannt. Wegen der teilweise schlechten Papierqualität und Mängeln der eingesetzten Software waren die Scans schwer zu lesen. Außerdem wurden Seiten manchmal gleich schräg eingescannt. Beispiele für schlechte Scans finden sich hier und hier.

Obwohl das Ergebnis des Projekts nicht vollständig befriedigend war, wurden die Texte online gestellt. Aus damaliger Sicht eine  sinnvolle Option, um unter Berücksichtigung der limitierten Ressourcen dennoch den Zugang zum Archiv zu ermöglichen. Um den Usern die teils schlechte Textqualität zu erklären, wurde in den maschinell aus Dateien extrahierten Texten auf ZEIT ONLINE auf die Entstehung hingewiesen und ein Link auf die Scan-Datei des Artikels angeboten. Hier ein Screenshot des Hinweistextes:

Seit 2009 arbeitet ZEIT ONLINE kontinuierlich daran, die Textqualität des Archivs der ZEIT zu verbessern. In einem ersten Schritt wurden per Hand Rahmen auf die vorhandenen Bilddateien gezogen, um Artikel von anderen Elementen zu separieren. Anschließend wurden die Bilddateien erneut mit der Software für OCR bearbeitet. So wurde das Problem ineinander fließender Artikeltexte gelöst.

Die Textqualität war aber noch nicht ausreichend. Als problematisch erwies sich die geringe Auflösung der Bilddateien und die schlechte Qualität des abgescannten Papiers. Der Einsatz der  OCR-Software war schwierig. Im Projektverlauf kontaktierte ZEIT ONLINE unterschiedliche Dienstleister aus dem OCR-Bereich, aber keiner konnte auf Basis der vorhandenen Bilddateien akzeptable Textqualität liefern. Die Forderung war, wir müssten entweder die Seiten noch einmal scannen oder die Texte per Hand abtippen. Erneutes Scannen kam jedoch nicht in Frage, da es von vielen ZEIT-Ausgaben nur noch ein Exemplar gibt, das nicht zur Verfügung gestellt werden kann. Auch Abtippen ist bei 225.000 Artikeln im ZEIT-Archiv nicht finanzierbar.

Nach monatelanger Suche wurde uns vom Staatsarchiv Baden-Württemberg die Firma Editura in Berlin empfohlen. Editura testete unsere Bilddateien mit einer selbstentwickelten Software und erzielte gleich beim ersten Versuch eine gesteigerte Textqualität. Nach einigen Wochen der Konzeption wurde mit Editura ein Vertrag über die Überarbeitung des Archivs geschlossen – und zwar auf Basis der vorhandenen Bilddateien.

Aus ihnen wurden die Texte erneut extrahiert, anschließend wurde mit von Editura entwickelten Algorithmen die Textqualität verbessert. Das Ergebnis wurden manuell auf Fehler geprüft, so dass eine Fehlerfreiheit (Zeichenübereinstimmung mit der Vorlage) von 99,95% auf alle Zeichen, also Buchstaben, Zahlen, Satzzeichen und Leerzeichen, entstand. Das bedeutet, dass es bei Archiv-Artikeln der ZEIT pro 2.000 Zeichen maximal ein falsches Zeichen geben darf.

Die Überarbeitung der Texte durch Editura dauerte ungefähr sechs Monate. Über eine zur Verfügung gestellte Schnittstelle konnte ZEIT ONLINE während des Projektzeitraumes fertiggestellte Artikel aus dem Editura-System ins ZEIT-ONLINE-CMS importieren und auf der Website veröffentlichen. Das Projekt ist zum Zeitpunkt der Veröffentlichung dieses Artikels bis auf rund 10.000 Artikel abgeschlossen. Die von Editura überarbeiteten Artikel wurden zeitnah auf der Website veröffentlicht, so dass ZEIT-ONLINE-Usern jetzt das gesamte Archiv der ZEIT in sehr guter Qualität zur Verfügung steht.

Nun wollen wir Konzepte entwickelt, wie wir Usern die Navigation durch diese große Textemenge erleichtern können. Natürlich lässt sich über die Suchfunktion von ZEIT ONLINE auf die Artikel zugreifen. Das ermöglicht aber nur ein stichprobenartiges Erleben der Texte, denn gewöhnlich springen Nutzer aus dem Suchergebnis auf einen Artikel, gehen dann zurück zum Suchergebnis, um von dort einen neuen Artikel aufzurufen. Eine Idee könnte es daher sein, sinnvolle Themen-Cluster zu entwickeln und anzubieten. Auch Formate wie “DIE ZEIT heute vor 30 Jahren” wären denkbar.

5 Kommentare

  1.   Daniel Naber

    Der Suche würden Facets gut tun, d.h. man sucht, und neben dem Ergebnis erscheinen automatisch Kategorien, auf die man klicken kann, um das Ergebnis weiter einzugrenzen: Treffer nach Jahr, nach Autor, nach Textlänge/-art.

    Eine „Meinten Sie“-Funktion scheint es auch noch nicht zu geben.

  2.   Jürgen

    Danke.


  3. […] Das Zeit-Archiv umfasst ungefähr 225.000 historische Artikel “mit einer Fehlerfreiheit (Zeichenübereinstimmung mit der Vorlage) von 99,95% auf alle Zeichen” und stellt somit ein bedeutendes kulturell-politisches Erbe dar. Das die Texte nun auch über eine Programmierschnittstelle maschinenles- und nutzbar werden zeigt, dass zumindest einige Verlagshäuser verstanden haben auf welchem gesellschaftlichen Schatz sie sitzen und dass dieser frei zugänglich und nutzbar zu sein hat. Nun wollen wir Konzepte entwickelt, wie wir Usern die Navigation durch diese große Textemenge erleichtern können. Natürlich lässt sich über die Suchfunktion von ZEIT ONLINE auf die Artikel zugreifen. Das ermöglicht aber nur ein stichprobenartiges Erleben der Texte, denn gewöhnlich springen Nutzer aus dem Suchergebnis auf einen Artikel, gehen dann zurück zum Suchergebnis, um von dort einen neuen Artikel aufzurufen. Cornelius Baier, Zeit Online […]


  4. […] In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am nahe liegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt. […]


  5. […] Onlinemedium über eine Programmierschnittstelle. Bis zum Jahr 1946 lässt sich das Archiv, das in einem aufwändigen Prozess digitalisiert wurde, systematisch durchforsten. Die beachtlichen Ergebnisse der API-Initiative sind in einem Blog […]