Lesezeichen
‹ Alle Einträge

Was hinter dem Corona-Dashboard auf ZEIT ONLINE steckt

 

So entwickelte sich das Corona-Dashboard innerhalb eines Jahres.
Das Corona-Dashboard wurde innerhalb eines Jahres immer wieder neu gestaltet.

Einige Autoren dieses Blogs

Was machen wir, wenn die Pandemie tatsächlich nach Deutschland kommt? Wie können wir unsere Leserinnen und Leser am besten informieren? Können wir eine zentrale Anlaufstelle für Corona-Daten in Deutschland werden?

Es ist der 24. Februar 2020, Rosenmontag, als die Redaktion von ZEIT ONLINE in Berlin darüber diskutiert. “Nur für den Fall, dass in Deutschland bald erheblich mehr Covid-19-Fälle auftreten”, hatte Chefredakteur Jochen Wegner per Mail dazu eingeladen. An diesem Montag beraten wir, wie es gelingen kann, ZEIT ONLINE aus dem Homeoffice heraus aktuell zu halten. Haben alle Laptops? Hält der VPN-Zugang? Noch klingt all das für viele eher übervorsichtig, ja, ein wenig surreal. Die Pandemie scheint weit weg.

Zwei Tage danach, am 26. Februar 2020, zeigt ZEIT ONLINE als erste Redaktion eine Deutschlandkarte mit allen bekannten Sars-Cov-2-Infektionen in den Bundesländern – damals 23 Fälle. Eine zentrale Sammlung dieser Daten gibt es noch nicht. Informationen über bestätige Coronavirus-Fälle sammeln wir deshalb aus Meldungen der Deutschen Presse-Agentur und lokalen Medien. Und wir rufen mehrmals am Tag beim Robert Koch-Institut (RKI) an.

Das Corona-Daten-Team arbeitet seit fast einem Jahr im Homeoffice.

Heute, ein Jahr später, ist aus der Karte ein umfangreiches Dashboard mit allen wichtigen Kennzahlen der Pandemie geworden, von der Sieben-Tage-Inzidenz bis zur Impfquote. Millionen Menschen haben sich darüber informiert – und es ist bis heute eines der zentralen Elemente auf der Homepage von ZEIT ONLINE. Im Hintergrund sammelt unser Team fast rund um die Uhr Daten. Die Zahlen vom RKI und aus den Bundesländern liefert heute eine Software automatisiert. Daneben besuchen wir mehrmals täglich Hunderte Webseiten der Kreisämter. Warum wir das tun und was wir dabei gelernt haben, davon werden wir im Folgenden berichten.

Daten direkt aus 401 Stadt- und Landkreisen

Mitte März 2020 stuft die Weltgesundheitsorganisation (WHO) den Ausbruch des Coronavirus offiziell als Pandemie ein. Auch in Deutschland gibt es immer mehr Fälle. In den ersten Wochen zeigt unser Dashboard, bei wie vielen Menschen der neue Erreger aus der Familie der Coronaviren in jedem Bundesland festgestellt wurde – und wie viele an den Folgen der Infektion, der Krankheit Covid-19, starben. Die Daten stellt das RKI inzwischen auf seiner Website täglich zur Verfügung. Doch auch die Ministerien der Bundesländer veröffentlichen mittlerweile eigene Zahlen – die sich teilweise erheblich von denen des RKI unterschieden. Der Grund: In der Meldekette von den Gesundheitsämtern über die Bundesländer an das RKI kommt es zu teils mehrtägigen Verzögerungen. Um möglichst aktuelle Zahlen zeigen zu können, besucht ein Team von Studentinnen und Studenten am Newsdesk von ZEIT ONLINE daher täglich die Websites der Bundesländer. Die Daten tragen sie in ein einfaches Google-Sheet ein.

 

Die Daten für die ersten Grafiken kamen komplett aus einem Google Sheet.

Doch nicht nur ZEIT ONLINE sammelt Daten zur Pandemie. Der freie Journalist René Engmann verfolgt schon seit Januar 2020 alle Entwicklungen rund um das Coronavirus. Er kann nicht verstehen, dass es in den ersten Tagen der akuten Krisensituation keine offizielle und tagesaktuelle Quelle für die Daten gibt – und fängt einfach selbst an zu sammeln. Über Twitter werden wir auf ihn und seine damalige Plattform coronavirus.jetzt aufmerksam. Vor allem weil er schon früh eine Liste mit den Infektionszahlen aus allen Stadt- und Landkreisen zusammenstellt. Auch unsere Redaktion will das Infektionsgeschehen noch regionaler als auf Ebene der Bundesländer abbilden und entscheidet deshalb, mit ihm zu kooperieren und die Zahlen von nun an direkt aus den Gesundheitsämtern zu beziehen.

 

Der Screenshot zeigt einen Ausschnitt unserer Lesezeichenliste der Webseiten der Kreisämter.

Der erhebliche Aufwand zahlt sich aus. Nicht erst als die Bundesregierung im Mai lokale Grenzwerte beschließt, an denen sich Lockerungen und Verschärfungen der Maßnahmen in einzelnen Regionen orientieren – und wir aktuellere Zahlen als das RKI zeigen können. Zwischenzeitlich werden unsere Daten sogar von der renommierten Johns-Hopkins-Universität zitiert, die als eine der zuverlässigsten Quellen für internationale Daten zum Coronavirus gilt. Lange wird sich unser Team an den Moment erinnern, als die Zahlen, die wir aus dem Homeoffice teilweise am Küchentisch oder mit Kindern auf dem Schoß eingepflegt haben, kurz darauf auf der Seite der New York Times zu sehen sind.

Ständig neue Kennzahlen

Als im Frühjahr die Fallzahlen rasant ansteigen, wird schnell klar, dass nicht nur die absoluten Fallzahlen wichtig sind. Gerade die Entwicklung ist entscheidend – und gleichzeitig schwer zu verstehen. Exponentielles Wachstum, Verdopplungszeiten, die Reproduktionszahl R: Wie können wir das alles möglichst einfach für unsere Leserinnen und Leser aufbereiten? Als die Corona-Fälle so schnell zunehmen, dass auf unserer Grafik im internationalen Vergleich kaum noch etwas zu erkennen ist, entscheiden wir uns, den Verlauf auf einer logarithmischen Achse zu zeigen. Durch die gestauchte Achse werden zwar höhere Werte besser vergleichbar, doch gleichzeitig hören wir auch Kritik: Die neue Darstellung erschwere es, die Zahlen richtig zu interpretieren. Heute bietet ZEIT ONLINE beide Darstellungen an. Dies ist nur ein Beispiel für die vielen Designentscheidungen, die wir oftmals in wenigen Stunden treffen mussten.

Eine unserer früheren Darstellungen zeigte auf diese Weise die Verdopplungszeit weltweit im Vergleich zu Deutschland.

Längst sind die bestätigten Infektionen und Todesfälle nicht mehr die einzigen Kennzahlen, die das Dashboard zeigt. Seit Mitte April beziehen wir tagesaktuelle Daten zur Belegung der Intensivstationen mit Covid-19-Patientinnen und -Patienten aus dem Divi-Intensivregister des RKI. Das Robert Koch-Institut meldet mittlerweile auch wöchentlich Zahlen von Tests und Testpositivraten, einem Indikator für eine mögliche Überlastung der Gesundheitsämter.

Auch 2021 kommen neue Kennzahlen der Corona-Pandemie hinzu, wie etwa Daten zu verabreichten Impfdosen in den Bundesländern – und seit Neuestem auch zur Verbreitung der Coronavirus-Mutationen. Um die Zahlen aus Deutschland auch international vergleichen zu können, setzen wir außerdem auf Daten der Johns-Hopkins-Universität, der WHO und der Plattform Our World in Data.

Doch wie verlässlich sind diese Zahlen – und welche sind überhaupt wichtig? Wie finden wir eine Balance, um einerseits den Ernst der Lage zu kommunizieren, dabei aber andererseits nicht alarmistisch zu sein? Und wie gehen wir damit um, dass es bei vielen der Daten große Unsicherheiten gibt? Immer wieder diskutiert die Redaktion darüber, immer wieder überarbeiten wir unsere Texte und Visualisierungen. Und immer versuchen wir, unsere Änderungen und Überlegungen in Methodikboxen und Infokästen möglichst transparent darzustellen.

 

Gemeinsam mit der Community von ZEIT ONLINE besprechen wir Visualisierungswünsche.

Eine große Unterstützung in diesem Prozess sind unsere Leserinnen und Leser. Noch nie haben wir für ein Projekt so viel und so regelmäßiges Feedback bekommen wie für die Corona-Daten. Im Laufe des Jahres sind unter dem Artikel zum Dashboard mehr als 22.000 Kommentare zusammengekommen. Darunter viel Lob, aber auch Kritik. Wenn ein Fehler passiert oder die Zahlen besonders stark von denen der lokalen Behörden abweichen, fällt das meist sofort jemandem auf. Selbst über neue Features diskutieren wir mittlerweile im Kommentarbereich unter dem Artikel, bevor wir sie veröffentlichen.

Unser Corona-Warn-Bot gibt Bescheid, wenn neue Zahlen vorhanden sind oder wenn ungewöhnliche Daten überprüft werden müssen.

Unsere Arbeitsweise hat sich im letzten Jahr grundlegend verändert: Vor der Pandemie arbeitete unser Team aus Journalistinnen, Entwicklerinnen und Designern meistens an größeren Projekten, bei denen wir viel Zeit für die Analyse und Visualisierung hatten. Nach der Veröffentlichung waren unsere Projekte im Normalfall abgeschlossen – nicht so im Fall des Corona-Dashboards. Und auch das, was wir uns in der Redaktionskonferenz im Februar noch kaum vorstellen konnten, ist mittlerweile Alltag: Das Team, das das Dashboard betreut, arbeitet seit fast einem Jahr komplett aus dem Homeoffice – in Schichten von 7 bis 22 Uhr, unter der Woche und am Wochenende.

Heute läuft im Hintergrund eine Datenbank mit allen Corona-Kennzahlen.

Falls es Sie interessiert, geben wir im Folgenden einen Einblick in die Software und Tools, mit denen wir jeden Tag arbeiten: Die mittlerweile beinahe unüberschaubare Menge an Daten von bestätigten Fällen bis weltweiten Impfquoten speichern wir in einer sogenannten Postgres-Datenbank, die über eine GraphQL-Schnittstelle sehr kurze Ladezeiten und ein flexibleres Arbeiten für etwa Datenanalysen ermöglicht. Neben der manuellen Eingabe, lesen sogenannte Webscraper Zahlen von verschiedenen Webseiten automatisch ein und werden in der Datenbank zusammengeführt. Diese Scraper programmieren wir in Javascript und Python und führen sie durch sogenannte Cronjobs im Minutentakt aus. Geodaten wie die Deutschlandkarte bearbeiten wir mit der Open-Source-Software QGIS. Daten analysieren wir mit der Statistiksoftware R oder Jupyter Notebook. Die Designs entwickeln wir gemeinsam mit der Software Figma, häufig bauen wir die ersten Version unserer Grafiken mit dem Tool Datawrapper. Die interaktiven Grafiken auf der Website bestehen aus der Javascript-Bibliothek D3 und React-Komponenten. Um den Überblick zu behalten organisieren wir uns mit dem Browsertool Trello und kommunizieren über Slack und Zoom.

Diese Personen haben alle im Laufe des Jahres mitgearbeitet: Joe Bauer, Paul Blickle, Fabian Dinklage, René Engmann, Elena Erdmann, Alexander Eydlin, Linda Fischer, Flavio Gortana, Carla Grefe-Huge, Katharina Heflik, Sophia Hofer, Alena Kammer, Moritz Klack, Matthias Kreienbrink, Andreas Loos, Christopher Möller, Valentin Peter, David Schach, Stephan Scheying, Anna Lena Schlitt, Max Skowronek, Ivana Sokola, Julian Stahnke, Johann Stephanowitz, Jona Spreter, Sven Stockrahm, Julius Tröger, Sascha Venohr, Konstantin Zimmermann

68 Kommentare

  1.   Thomas Ritter

    So ätzend das ganze Thema ist – es war und ist wirklich spannend, die Entwicklung und laufende Verbesserung des Dashboards über das vergangene Jahr zu verfolgen.

  2.   DrSpoof

    Tolle Übersicht.

    Könntet Ihr nicht auch noch eine Grafik zu den täglichen/wöchentlichem Impffortschritten aufnehmen? Dann sieht man die Entwicklung über die letzten Monate besser.
    Vorlage:
    https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Daten/Impfquoten-Tab.html

    VG

  3.   J.R.M.

    Cool! Eine Nachfrage zu der oben verlinkten GitHub-seite mit den nach Landkreis aufgeschlüsselten Daten: Ist diese Übersicht immer noch deckungsgleich mit eurer Datenbank? Falls nicht, gibt es eure Datenbank samt aktuellen Zahlen und Zeitserie auch online verfügbar, zB auf GitHub oder so?

  4.   Bluto Blutarski

    Auch von mir vielen Dank für die Arbeit!
    Am Anfang sicher äußerst informativ – aber seit die selben Daten, wenn auch mit etwas Verspätung auch vom RKI übermittelt werden und diese die Grundlage für Regierungsentscheidungen bilden, wäre es da nicht sinnvoller, den Aufwand in unerforschtere Gefilde zu verlagern?
    Z.B. die Anzahl der Tests nach Landkreisen und Gemeinden oder die Anzahl der Schnelltests?

  5.   Felix Sinae

    Mit dem Corona-Dashboard hat die ZEIT wirklich ein Alleinstellungsmerkmal.

    Ich stimme in vielen Dingen nicht mit der Linie der Redaktion überein (bin eher auf der NZZ-Linie), aber das Dashboard versöhnt. Hier mal ein aufrichtiger Dank an alle Beteiligten. Würde mich nicht wundern, wenn der Zuwachs von Abo- und Zugriffszahlen darauf wesentlich zurückzuführen ist.

    So gute Datenvisualisierungen findet man kaum, vielleicht noch bei der NY Times.

  6.   ClimateJustice

    Top!

  7.   x

    Ein ganz tolles Dashboard. Ich schaue regelmäßig rein.
    Vielen Dank an das ganze Team!

  8.   Rabenrabe

    Prima Arbeit. Vielen Dank für Eure Mühe!👍

  9.   HeinerN

    Vielen vielen Dank!
    Meine (mehrfach) tägliche Informationsquelle zum Thema.

  10.   Melana

    Vielen Dank für die tolle Arbeit! Sehr transparent auch die Beschreibung der ganzen Prozesse.
    Dennoch stelle ich seit Oktober fest, dass der offizielle Inzidenzwert der Stadt Augsburg nicht einmal exakt der gleiche war wie auf Zeit online angegeben. Die Stadt Augsburg differenziert auf ihrer Internetseite extra zwischen RKI- und offizieller Stadt-Zahl. Letztere entspricht jedoch nie dem Wert auf Zeit online. Die Unterschiede sind nicht groß, aber wo kommen sie überhaupt her? Es ist auch nicht der veraltete Wert von gestern oder so, sondern einfach ein etwas abweichender, ähnlicher Wert.
    Ohne hier die großartige Gesamtarbeit abwerten zu wollen! Das habe ich mich nur schon lange gefragt.

 

Kommentare sind geschlossen.