Was machen wir, wenn die Pandemie tatsächlich nach Deutschland kommt? Wie können wir unsere Leserinnen und Leser am besten informieren? Können wir eine zentrale Anlaufstelle für Corona-Daten in Deutschland werden?
Es ist der 24. Februar 2020, Rosenmontag, als die Redaktion von ZEIT ONLINE in Berlin darüber diskutiert. “Nur für den Fall, dass in Deutschland bald erheblich mehr Covid-19-Fälle auftreten”, hatte Chefredakteur Jochen Wegner per Mail dazu eingeladen. An diesem Montag beraten wir, wie es gelingen kann, ZEIT ONLINE aus dem Homeoffice heraus aktuell zu halten. Haben alle Laptops? Hält der VPN-Zugang? Noch klingt all das für viele eher übervorsichtig, ja, ein wenig surreal. Die Pandemie scheint weit weg.
Zwei Tage danach, am 26. Februar 2020, zeigt ZEIT ONLINE als erste Redaktion eine Deutschlandkarte mit allen bekannten Sars-Cov-2-Infektionen in den Bundesländern – damals 23 Fälle. Eine zentrale Sammlung dieser Daten gibt es noch nicht. Informationen über bestätige Coronavirus-Fälle sammeln wir deshalb aus Meldungen der Deutschen Presse-Agentur und lokalen Medien. Und wir rufen mehrmals am Tag beim Robert Koch-Institut (RKI) an.
Heute, ein Jahr später, ist aus der Karte ein umfangreiches Dashboard mit allen wichtigen Kennzahlen der Pandemie geworden, von der Sieben-Tage-Inzidenz bis zur Impfquote. Millionen Menschen haben sich darüber informiert – und es ist bis heute eines der zentralen Elemente auf der Homepage von ZEIT ONLINE. Im Hintergrund sammelt unser Team fast rund um die Uhr Daten. Die Zahlen vom RKI und aus den Bundesländern liefert heute eine Software automatisiert. Daneben besuchen wir mehrmals täglich Hunderte Webseiten der Kreisämter. Warum wir das tun und was wir dabei gelernt haben, davon werden wir im Folgenden berichten.
Daten direkt aus 401 Stadt- und Landkreisen
Mitte März 2020 stuft die Weltgesundheitsorganisation (WHO) den Ausbruch des Coronavirus offiziell als Pandemie ein. Auch in Deutschland gibt es immer mehr Fälle. In den ersten Wochen zeigt unser Dashboard, bei wie vielen Menschen der neue Erreger aus der Familie der Coronaviren in jedem Bundesland festgestellt wurde – und wie viele an den Folgen der Infektion, der Krankheit Covid-19, starben. Die Daten stellt das RKI inzwischen auf seiner Website täglich zur Verfügung. Doch auch die Ministerien der Bundesländer veröffentlichen mittlerweile eigene Zahlen – die sich teilweise erheblich von denen des RKI unterschieden. Der Grund: In der Meldekette von den Gesundheitsämtern über die Bundesländer an das RKI kommt es zu teils mehrtägigen Verzögerungen. Um möglichst aktuelle Zahlen zeigen zu können, besucht ein Team von Studentinnen und Studenten am Newsdesk von ZEIT ONLINE daher täglich die Websites der Bundesländer. Die Daten tragen sie in ein einfaches Google-Sheet ein.
Doch nicht nur ZEIT ONLINE sammelt Daten zur Pandemie. Der freie Journalist René Engmann verfolgt schon seit Januar 2020 alle Entwicklungen rund um das Coronavirus. Er kann nicht verstehen, dass es in den ersten Tagen der akuten Krisensituation keine offizielle und tagesaktuelle Quelle für die Daten gibt – und fängt einfach selbst an zu sammeln. Über Twitter werden wir auf ihn und seine damalige Plattform coronavirus.jetzt aufmerksam. Vor allem weil er schon früh eine Liste mit den Infektionszahlen aus allen Stadt- und Landkreisen zusammenstellt. Auch unsere Redaktion will das Infektionsgeschehen noch regionaler als auf Ebene der Bundesländer abbilden und entscheidet deshalb, mit ihm zu kooperieren und die Zahlen von nun an direkt aus den Gesundheitsämtern zu beziehen.
Der erhebliche Aufwand zahlt sich aus. Nicht erst als die Bundesregierung im Mai lokale Grenzwerte beschließt, an denen sich Lockerungen und Verschärfungen der Maßnahmen in einzelnen Regionen orientieren – und wir aktuellere Zahlen als das RKI zeigen können. Zwischenzeitlich werden unsere Daten sogar von der renommierten Johns-Hopkins-Universität zitiert, die als eine der zuverlässigsten Quellen für internationale Daten zum Coronavirus gilt. Lange wird sich unser Team an den Moment erinnern, als die Zahlen, die wir aus dem Homeoffice teilweise am Küchentisch oder mit Kindern auf dem Schoß eingepflegt haben, kurz darauf auf der Seite der New York Times zu sehen sind.
Ständig neue Kennzahlen
Als im Frühjahr die Fallzahlen rasant ansteigen, wird schnell klar, dass nicht nur die absoluten Fallzahlen wichtig sind. Gerade die Entwicklung ist entscheidend – und gleichzeitig schwer zu verstehen. Exponentielles Wachstum, Verdopplungszeiten, die Reproduktionszahl R: Wie können wir das alles möglichst einfach für unsere Leserinnen und Leser aufbereiten? Als die Corona-Fälle so schnell zunehmen, dass auf unserer Grafik im internationalen Vergleich kaum noch etwas zu erkennen ist, entscheiden wir uns, den Verlauf auf einer logarithmischen Achse zu zeigen. Durch die gestauchte Achse werden zwar höhere Werte besser vergleichbar, doch gleichzeitig hören wir auch Kritik: Die neue Darstellung erschwere es, die Zahlen richtig zu interpretieren. Heute bietet ZEIT ONLINE beide Darstellungen an. Dies ist nur ein Beispiel für die vielen Designentscheidungen, die wir oftmals in wenigen Stunden treffen mussten.
Längst sind die bestätigten Infektionen und Todesfälle nicht mehr die einzigen Kennzahlen, die das Dashboard zeigt. Seit Mitte April beziehen wir tagesaktuelle Daten zur Belegung der Intensivstationen mit Covid-19-Patientinnen und -Patienten aus dem Divi-Intensivregister des RKI. Das Robert Koch-Institut meldet mittlerweile auch wöchentlich Zahlen von Tests und Testpositivraten, einem Indikator für eine mögliche Überlastung der Gesundheitsämter.
Auch 2021 kommen neue Kennzahlen der Corona-Pandemie hinzu, wie etwa Daten zu verabreichten Impfdosen in den Bundesländern – und seit Neuestem auch zur Verbreitung der Coronavirus-Mutationen. Um die Zahlen aus Deutschland auch international vergleichen zu können, setzen wir außerdem auf Daten der Johns-Hopkins-Universität, der WHO und der Plattform Our World in Data.
Doch wie verlässlich sind diese Zahlen – und welche sind überhaupt wichtig? Wie finden wir eine Balance, um einerseits den Ernst der Lage zu kommunizieren, dabei aber andererseits nicht alarmistisch zu sein? Und wie gehen wir damit um, dass es bei vielen der Daten große Unsicherheiten gibt? Immer wieder diskutiert die Redaktion darüber, immer wieder überarbeiten wir unsere Texte und Visualisierungen. Und immer versuchen wir, unsere Änderungen und Überlegungen in Methodikboxen und Infokästen möglichst transparent darzustellen.
Eine große Unterstützung in diesem Prozess sind unsere Leserinnen und Leser. Noch nie haben wir für ein Projekt so viel und so regelmäßiges Feedback bekommen wie für die Corona-Daten. Im Laufe des Jahres sind unter dem Artikel zum Dashboard mehr als 22.000 Kommentare zusammengekommen. Darunter viel Lob, aber auch Kritik. Wenn ein Fehler passiert oder die Zahlen besonders stark von denen der lokalen Behörden abweichen, fällt das meist sofort jemandem auf. Selbst über neue Features diskutieren wir mittlerweile im Kommentarbereich unter dem Artikel, bevor wir sie veröffentlichen.
Unsere Arbeitsweise hat sich im letzten Jahr grundlegend verändert: Vor der Pandemie arbeitete unser Team aus Journalistinnen, Entwicklerinnen und Designern meistens an größeren Projekten, bei denen wir viel Zeit für die Analyse und Visualisierung hatten. Nach der Veröffentlichung waren unsere Projekte im Normalfall abgeschlossen – nicht so im Fall des Corona-Dashboards. Und auch das, was wir uns in der Redaktionskonferenz im Februar noch kaum vorstellen konnten, ist mittlerweile Alltag: Das Team, das das Dashboard betreut, arbeitet seit fast einem Jahr komplett aus dem Homeoffice – in Schichten von 7 bis 22 Uhr, unter der Woche und am Wochenende.
Falls es Sie interessiert, geben wir im Folgenden einen Einblick in die Software und Tools, mit denen wir jeden Tag arbeiten: Die mittlerweile beinahe unüberschaubare Menge an Daten von bestätigten Fällen bis weltweiten Impfquoten speichern wir in einer sogenannten Postgres-Datenbank, die über eine GraphQL-Schnittstelle sehr kurze Ladezeiten und ein flexibleres Arbeiten für etwa Datenanalysen ermöglicht. Neben der manuellen Eingabe, lesen sogenannte Webscraper Zahlen von verschiedenen Webseiten automatisch ein und werden in der Datenbank zusammengeführt. Diese Scraper programmieren wir in Javascript und Python und führen sie durch sogenannte Cronjobs im Minutentakt aus. Geodaten wie die Deutschlandkarte bearbeiten wir mit der Open-Source-Software QGIS. Daten analysieren wir mit der Statistiksoftware R oder Jupyter Notebook. Die Designs entwickeln wir gemeinsam mit der Software Figma, häufig bauen wir die ersten Version unserer Grafiken mit dem Tool Datawrapper. Die interaktiven Grafiken auf der Website bestehen aus der Javascript-Bibliothek D3 und React-Komponenten. Um den Überblick zu behalten organisieren wir uns mit dem Browsertool Trello und kommunizieren über Slack und Zoom.
Diese Personen haben alle im Laufe des Jahres mitgearbeitet: Joe Bauer, Paul Blickle, Fabian Dinklage, René Engmann, Elena Erdmann, Alexander Eydlin, Linda Fischer, Flavio Gortana, Carla Grefe-Huge, Katharina Heflik, Sophia Hofer, Alena Kammer, Moritz Klack, Matthias Kreienbrink, Andreas Loos, Christopher Möller, Valentin Peter, David Schach, Stephan Scheying, Anna Lena Schlitt, Max Skowronek, Ivana Sokola, Julian Stahnke, Johann Stephanowitz, Jona Spreter, Sven Stockrahm, Julius Tröger, Sascha Venohr, Konstantin Zimmermann
Ich kann mich dem Lob nur bedingt anschließen. Generell ist die akribische Aufbereitung von Zahlen positiv zu bewerten, und es ist ein großes Armutszeugnis, dass die offiziellen Stellen in einem Land wie Deutschland das auch nach einem ganzen Jahr nicht schaffen. Aber wenn schon Aufbereitung, dann bitte richtig! Ich zitiere zwei Aussagen, die ich hier auf ZEIT ONLINE zum Thema Neuinfektionen gefunden habe:
„Die Neuinfektionen geben den Wert an positiv auf das Coronavirus getesteten Personen an“
„Neuinfektionen – Die Anzahl der positiven Tests, die in den vergangenen sieben Tagen gemeldet wurden.“
Man beachte, dass diese beiden Aussagen nicht (!) identisch sind, siehe folgendes Beispiel:
Ich kenne persönlich nur zwei Personen, die positiv getestet wurden. Die eine wurde einmal positiv getestet und danach kein weiteres Mal, die andere wurde insgesamt vier Mal getestet, davon waren drei Tests positiv. Damit wären es vier Neuinfektionen bei zwei Personen.
Warum wissen wir auch nach einem Jahr immer noch nicht, dass die Anzahl der positiven Tests NICHT gleich der Anzahl der Neuinfektionen ist?
Liebe Zeit,
vielen Dank für eure Mühen, diese Seite(n) zu gestalten und zu pflegen. Die Seite gehört mitlerweile zu meinem morgendlichen Ritual (beim ersten Kaffe ein paar Artikel lesen, ein Blick auf die Corona Statistiken werden – und GANZ WICHTIG(!!!) der neuste Känguru Comic)….
vielen Dank für diesen Hintergrundartikel!
Vielen Dank für Eure Arbeit liebes Zeit Team. Unglaublich zu sehen wieviel Arbeit dahinter steckt. Ich würde mir als Leser gerne auch nach der Pandemie mit interessanten Grafischen Aufbereitungen erfreuen. Eventuell Aufbereitungen in den Bereichen Klima, Gesundheit, Gerechtigkeit und Wirtschaft?
@Redaktion: Eure Daten zu diesem Thema sind und bleiben die besten, die ich finden konnte. Für diese Leistung noch mal vielen Dank. Ich vermisse nur eine Angabe, die mich sehr interessiert: Es geht um die Anzahl der Kreise/Städte, die schon in der letzten Aktualisierung enthalten sind! Morgens würde dann etwa z.B. 6/401 stehen, abends vielleicht 399/401 oder so ähnlich. Technisch dürfte das kein Problem sein. Ihr könnt ja mal überlegen, ob dieser Zusatz das Dashboard noch ein bisschen besser macht. Ansonsten natürlich auf jeden Fall: Weiter so!
Diese Fragestellung geht mir auch immer wieder im Kopf rum… Wie lassen sich die Zahlen objektiv vergleichen, wenn sich Testkriterien, Teststrategien und Testanzahl mehr oder weniger laufend ändern?
Erst recht zwischen verschiedenen Ländern.
Super Job!! Die Zeit Daten waren und sind seit Pandemiebeginn eine zuverlässige Quelle, wie sie die verantwortlichen staatlichen Institution bis heute nicht Zustande gebracht haben!
Danke für die super Leistung. Eine Anregung: Perfekt wären die Daten mit dem Zusatz, wie viele Kreise/Städte in der letzten Aktualisierung schon enthalten sind, z.B. 389/401 o. ä.!
Großartige Arbeit. Und das wisst ihr auch
Tolle Darstellung und sehr ästhetisch! Frage: Veröffentlicht ihr auch den Code für Peer review?