{"id":90,"date":"2012-11-19T10:15:52","date_gmt":"2012-11-19T09:15:52","guid":{"rendered":"http:\/\/blog.zeit.de\/dev\/?p=90"},"modified":"2015-09-17T11:36:30","modified_gmt":"2015-09-17T09:36:30","slug":"die-digitalisierung-des-zeit-archivs","status":"publish","type":"post","link":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/","title":{"rendered":"Die Digitalisierung des ZEIT Archivs"},"content":{"rendered":"<p>Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess.<\/p>\n<p>Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der <a href=\"http:\/\/www.zeit.de\/1946\/01\/index\">Ausgabe 01\/1946<\/a> auf <a href=\"http:\/\/www.zeit.de\">www.zeit.de<\/a> zu ver\u00f6ffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT gescannt. Aus daraus entstandenen pdf-Dateien wurden mithilfe einer Software f\u00fcr Optical Content Recognition (OCR) die Texte extrahiert.<\/p>\n<p><!--more--><\/p>\n<p>Die Ergebnisse waren jedoch zum Teil qualitativ schlecht. Denn aufgrund des variierenden Layouts der ZEIT war f\u00fcr die Software\u00a0 schlecht erkennbar, wo ein Artikel anfing beziehungsweise endete. Auch wurden Anzeigen oft f\u00e4lschlich als Artikel erkannt. Wegen der teilweise schlechten Papierqualit\u00e4t und M\u00e4ngeln der eingesetzten Software waren die Scans schwer zu lesen. Au\u00dferdem wurden Seiten manchmal gleich schr\u00e4g eingescannt. Beispiele f\u00fcr schlechte Scans finden sich <a href=\"http:\/\/pdfarchiv.zeit.de\/1947\/25\/bodenreform-ohne-zonengrenze.pdf\">hier<\/a> und <a href=\"http:\/\/pdfarchiv.zeit.de\/1947\/17\/das-eichhoernchen-in-der-trommel.pdf\">hier<\/a>.<\/p>\n<p>Obwohl das Ergebnis des Projekts nicht vollst\u00e4ndig befriedigend war, wurden die Texte online gestellt. Aus damaliger Sicht eine\u00a0 sinnvolle Option, um unter Ber\u00fccksichtigung der limitierten Ressourcen dennoch den Zugang zum Archiv zu erm\u00f6glichen. Um den Usern die teils schlechte Textqualit\u00e4t zu erkl\u00e4ren, wurde in den maschinell aus Dateien extrahierten Texten auf ZEIT ONLINE auf die Entstehung hingewiesen und ein Link auf die Scan-Datei des Artikels angeboten. Hier ein Screenshot des Hinweistextes:<br \/>\n<img loading=\"lazy\" decoding=\"async\" class=\"aligncenter\" src=\"https:\/\/lh3.googleusercontent.com\/6S63UBHsvBbOHyg1EKbBtZKgmvZ3wE4YtyXbD0gydehuoZUe-RZ4I4UjJPx3z0659Iof5BmHJ9NpKlSUDoCdmvkGy1CqVIwqxGr1U5X0RlHQyNeINjnK\" alt=\"\" width=\"543\" height=\"396\" \/><br \/>\nSeit 2009 arbeitet ZEIT ONLINE kontinuierlich daran, die Textqualit\u00e4t des Archivs der ZEIT zu verbessern. In einem ersten Schritt wurden per Hand Rahmen auf die vorhandenen Bilddateien gezogen, um Artikel von anderen Elementen zu separieren. Anschlie\u00dfend wurden die Bilddateien erneut mit der Software f\u00fcr OCR bearbeitet. So wurde das Problem ineinander flie\u00dfender Artikeltexte gel\u00f6st.<\/p>\n<p>Die Textqualit\u00e4t war aber noch nicht ausreichend. Als problematisch erwies sich die geringe Aufl\u00f6sung der Bilddateien und die schlechte Qualit\u00e4t des abgescannten Papiers. Der Einsatz der\u00a0 OCR-Software war schwierig. Im Projektverlauf kontaktierte ZEIT ONLINE unterschiedliche Dienstleister aus dem OCR-Bereich, aber keiner konnte auf Basis der vorhandenen Bilddateien akzeptable Textqualit\u00e4t liefern. Die Forderung war, wir m\u00fcssten entweder die Seiten noch einmal scannen oder die Texte per Hand abtippen. Erneutes Scannen kam jedoch nicht in Frage, da es von vielen ZEIT-Ausgaben nur noch ein Exemplar gibt, das nicht zur Verf\u00fcgung gestellt werden kann. Auch Abtippen ist bei 225.000 Artikeln im ZEIT-Archiv nicht finanzierbar.<\/p>\n<p>Nach monatelanger Suche wurde uns vom Staatsarchiv Baden-W\u00fcrttemberg die Firma <a href=\"http:\/\/www.editura.de\/\">Editura<\/a> in Berlin empfohlen. Editura testete unsere Bilddateien mit einer selbstentwickelten Software und erzielte gleich beim ersten Versuch eine gesteigerte Textqualit\u00e4t. Nach einigen Wochen der Konzeption wurde mit Editura ein Vertrag \u00fcber die \u00dcberarbeitung des Archivs geschlossen &#8211; und zwar auf Basis der vorhandenen Bilddateien.<\/p>\n<p>Aus ihnen wurden die Texte erneut extrahiert, anschlie\u00dfend wurde mit von Editura entwickelten Algorithmen die Textqualit\u00e4t verbessert. Das Ergebnis wurden manuell auf Fehler gepr\u00fcft, so dass eine Fehlerfreiheit (Zeichen\u00fcbereinstimmung mit der Vorlage) von 99,95% auf alle Zeichen, also Buchstaben, Zahlen, Satzzeichen und Leerzeichen, entstand. Das bedeutet, dass es bei Archiv-Artikeln der ZEIT pro 2.000 Zeichen maximal ein falsches Zeichen geben darf.<\/p>\n<p>Die \u00dcberarbeitung der Texte durch Editura dauerte ungef\u00e4hr sechs Monate. \u00dcber eine zur Verf\u00fcgung gestellte Schnittstelle konnte ZEIT ONLINE w\u00e4hrend des Projektzeitraumes fertiggestellte Artikel aus dem Editura-System ins ZEIT-ONLINE-CMS importieren und auf der Website ver\u00f6ffentlichen. Das Projekt ist zum Zeitpunkt der Ver\u00f6ffentlichung dieses Artikels bis auf rund 10.000 Artikel abgeschlossen. Die von Editura \u00fcberarbeiteten Artikel wurden zeitnah auf der Website ver\u00f6ffentlicht, so dass ZEIT-ONLINE-Usern jetzt das gesamte Archiv der ZEIT in sehr guter Qualit\u00e4t zur Verf\u00fcgung steht.<\/p>\n<p>Nun wollen wir Konzepte entwickelt, wie wir Usern die Navigation durch diese gro\u00dfe Textemenge erleichtern k\u00f6nnen. Nat\u00fcrlich l\u00e4sst sich \u00fcber die Suchfunktion von ZEIT ONLINE auf die Artikel zugreifen. Das erm\u00f6glicht aber nur ein stichprobenartiges Erleben der Texte, denn gew\u00f6hnlich springen Nutzer aus dem Suchergebnis auf einen Artikel, gehen dann zur\u00fcck zum Suchergebnis, um von dort einen neuen Artikel aufzurufen. Eine Idee k\u00f6nnte es daher sein, sinnvolle Themen-Cluster zu entwickeln und anzubieten. Auch Formate wie \u201cDIE ZEIT heute vor 30 Jahren\u201d w\u00e4ren denkbar.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess. Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der Ausgabe 01\/1946 auf www.zeit.de zu ver\u00f6ffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT [&hellip;]<\/p>\n","protected":false},"author":287,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[16],"tags":[],"class_list":["post-90","post","type-post","status-publish","format-standard","hentry","category-allgemein"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v21.0 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Die Digitalisierung des ZEIT Archivs - Dev-Blog<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Die Digitalisierung des ZEIT Archivs - Dev-Blog\" \/>\n<meta property=\"og:description\" content=\"Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess. Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der Ausgabe 01\/1946 auf www.zeit.de zu ver\u00f6ffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/\" \/>\n<meta property=\"og:site_name\" content=\"Dev-Blog\" \/>\n<meta property=\"article:published_time\" content=\"2012-11-19T09:15:52+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2015-09-17T09:36:30+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/lh3.googleusercontent.com\/6S63UBHsvBbOHyg1EKbBtZKgmvZ3wE4YtyXbD0gydehuoZUe-RZ4I4UjJPx3z0659Iof5BmHJ9NpKlSUDoCdmvkGy1CqVIwqxGr1U5X0RlHQyNeINjnK\" \/>\n<meta name=\"author\" content=\"Cornelius Baier\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Geschrieben von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Cornelius Baier\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/\",\"url\":\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/\",\"name\":\"Die Digitalisierung des ZEIT Archivs - Dev-Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.zeit.de\/dev\/#website\"},\"datePublished\":\"2012-11-19T09:15:52+00:00\",\"dateModified\":\"2015-09-17T09:36:30+00:00\",\"author\":{\"@id\":\"https:\/\/blog.zeit.de\/dev\/#\/schema\/person\/5591f1b3b7b34eb0cd1422099d0f1c17\"},\"breadcrumb\":{\"@id\":\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Startseite\",\"item\":\"https:\/\/blog.zeit.de\/dev\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Die Digitalisierung des ZEIT Archivs\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.zeit.de\/dev\/#website\",\"url\":\"https:\/\/blog.zeit.de\/dev\/\",\"name\":\"Dev-Blog\",\"description\":\"Entwicklungsblog von ZEIT ONLINE\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.zeit.de\/dev\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.zeit.de\/dev\/#\/schema\/person\/5591f1b3b7b34eb0cd1422099d0f1c17\",\"name\":\"Cornelius Baier\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\/\/blog.zeit.de\/dev\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/4310ea75b0defe99d75de4d91f353a5efc9b7af31d5cadebd5599fe0acc99f21?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/4310ea75b0defe99d75de4d91f353a5efc9b7af31d5cadebd5599fe0acc99f21?s=96&d=mm&r=g\",\"caption\":\"Cornelius Baier\"},\"url\":\"https:\/\/blog.zeit.de\/dev\/author\/cornelius-baier\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Die Digitalisierung des ZEIT Archivs - Dev-Blog","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/","og_locale":"de_DE","og_type":"article","og_title":"Die Digitalisierung des ZEIT Archivs - Dev-Blog","og_description":"Auf ZEIT ONLINE finden User das gesamte Archiv der ZEIT seit 1946. Die Digitalisierung des ZEIT-Archivs war ein langer und komplizierter Prozess. Im Jahre 2006 hatte der ZEIT Verlag die Entscheidung getroffen, sein komplettes Archiv ab der Ausgabe 01\/1946 auf www.zeit.de zu ver\u00f6ffentlichen. In einem ersten Schritt wurden alle auf Papier vorliegenden Ausgaben der ZEIT [&hellip;]","og_url":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/","og_site_name":"Dev-Blog","article_published_time":"2012-11-19T09:15:52+00:00","article_modified_time":"2015-09-17T09:36:30+00:00","og_image":[{"url":"https:\/\/lh3.googleusercontent.com\/6S63UBHsvBbOHyg1EKbBtZKgmvZ3wE4YtyXbD0gydehuoZUe-RZ4I4UjJPx3z0659Iof5BmHJ9NpKlSUDoCdmvkGy1CqVIwqxGr1U5X0RlHQyNeINjnK"}],"author":"Cornelius Baier","twitter_card":"summary_large_image","twitter_misc":{"Geschrieben von":"Cornelius Baier","Gesch\u00e4tzte Lesezeit":"3\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/","url":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/","name":"Die Digitalisierung des ZEIT Archivs - Dev-Blog","isPartOf":{"@id":"https:\/\/blog.zeit.de\/dev\/#website"},"datePublished":"2012-11-19T09:15:52+00:00","dateModified":"2015-09-17T09:36:30+00:00","author":{"@id":"https:\/\/blog.zeit.de\/dev\/#\/schema\/person\/5591f1b3b7b34eb0cd1422099d0f1c17"},"breadcrumb":{"@id":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/blog.zeit.de\/dev\/die-digitalisierung-des-zeit-archivs\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Startseite","item":"https:\/\/blog.zeit.de\/dev\/"},{"@type":"ListItem","position":2,"name":"Die Digitalisierung des ZEIT Archivs"}]},{"@type":"WebSite","@id":"https:\/\/blog.zeit.de\/dev\/#website","url":"https:\/\/blog.zeit.de\/dev\/","name":"Dev-Blog","description":"Entwicklungsblog von ZEIT ONLINE","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.zeit.de\/dev\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/blog.zeit.de\/dev\/#\/schema\/person\/5591f1b3b7b34eb0cd1422099d0f1c17","name":"Cornelius Baier","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/blog.zeit.de\/dev\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/4310ea75b0defe99d75de4d91f353a5efc9b7af31d5cadebd5599fe0acc99f21?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/4310ea75b0defe99d75de4d91f353a5efc9b7af31d5cadebd5599fe0acc99f21?s=96&d=mm&r=g","caption":"Cornelius Baier"},"url":"https:\/\/blog.zeit.de\/dev\/author\/cornelius-baier\/"}]}},"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/posts\/90","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/users\/287"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/comments?post=90"}],"version-history":[{"count":21,"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/posts\/90\/revisions"}],"predecessor-version":[{"id":732,"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/posts\/90\/revisions\/732"}],"wp:attachment":[{"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/media?parent=90"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/categories?post=90"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.zeit.de\/dev\/wp-json\/wp\/v2\/tags?post=90"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}