Offene Daten – offene Gesellschaft
Kategorie:

Datenjournalismus

Keim bleibt geheim

Von 22. November 2014 um 09:00 Uhr

Von Haluka Maier-Borst

Resistente Keime wie MRSA und VRE sind in deutschen Kliniken ein großes Problem. Bis zu 15.000 Menschen sterben schätzungsweise jedes Jahr an einer Infektion mit einem solchen Erreger. Das sind viereinhalb Mal so viele, wie bei Verkehrsunfällen umkommen.

Wer allerdings genauer wissen will, wie groß das Problem ist und wie es sich entwickelt, muss feststellen, dass es erstaunlich schwierig ist, an Zahlen zu gelangen. Für uns waren zu Beginn der Recherche vor allem diese drei Fragen unbeantwortet:

  1. Ist ganz Deutschland gleichermaßen von dem Problem betroffen?
  2. Gibt es bestimmte Regionen, bestimmte Krankenhäuser, in denen solche Infektionen häufiger auftreten?
  3. Gibt es Schwerpunkte, bei denen es wichtig wäre, die Ursachen genauer anzuschauen?

Der erste Schritt, diese Fragen zu beantworten, war noch einfach. Seit Mitte 2009 muss jedes Labor melden, wenn es einen MRSA-Keim im Blut oder in der Wirbelsäulenflüssigkeit eines Patienten findet. Die Statistik darüber führt das Robert-Koch-Institut (RKI), die wichtigste Institution in Deutschland, wenn es um Seuchen und Infektionsbekämpfung geht.

Das RKI lieferte entsprechende Daten auf Anfrage problemlos – solange wir nicht zu detailliert wissen wollten, wie viele Menschen sich wo infiziert hatten. Wir bekamen Daten, die zeigen, wie viele MRSA-Fälle pro 10.000 Einwohner in allen Landkreisen und Städten gemeldet werden.

Daran ist zu erkennen, dass sich vor allem in Nordrhein-Westfalen und Niedersachsen MRSA-Infektionen häufen. Betrachtet man zusätzlich, welche Kreise und Städte die meisten Infektionen im Verhältnis zu ihrer Einwohnerzahl gemeldet haben, kommt man auf diese zehn: Holzminden, Sächsische Schweiz-Osterzgebirge, Goslar, Nienburg (Weser), Northeim, Peine, Mönchengladbach, Hameln-Pyrmont, Höxter, Duisburg.

Diese zehn Städte und Kreise verzeichneten nicht nur in einem Jahr die meisten Fälle. Sie tauchen vielmehr in nahezu jedem Jahr an der Spitze der Liste der Infektionsherde auf. Es geht also nicht um einzelne Ausbrüche.

Die nächste Frage, welche Krankenhäuser in den jeweiligen Kreisen und Städten konkret betroffen sind, war nicht mehr so einfach zu beantworten. Doch nur so lässt sich beurteilen, ob hinter hohen Zahlen beispielsweise eine auf multiresistente Keime spezialisierte Klinik steckt, die naturgemäß hohe Fallzahlen hat. Oder ob es die besonders großen Krankenhäuser mit sehr vielen Patienten sind. Oder ob die Zahlen auf ein Problem hinweisen, schlechtere hygienische Zustände beispielsweise. Und natürlich sind entsprechende Informationen für die Bewohner der Regionen interessant.

Gesundheitsämter schwiegen

Das RKI hat solche Daten nicht, sie liegen bei den örtlichen Gesundheitsämtern. Diese registrieren die Fälle und melden sie anschließend anonymisiert an das Institut.

Für Duisburg hatten wir dank der Vorarbeit des Rechercheteams der Funke-Mediengruppe schon eine Aufschlüsselung der Fallzahlen nach den einzelnen Krankenhäusern. Vier weitere Kreisgesundheitsämter beantworteten unsere Frage. Die fünf übrigen taten das nicht.

Sie führten dafür unterschiedliche Gründe an. Personalmangel zum Beispiel, verbunden mit dem Vorwurf, wir behinderten die Arbeit der Behörde: “Im zuständigen Fachbereich sind wir personell (…) sehr eng aufgestellt. Es würde bedeuten, dass eine Kraft sich ihren Beratungs- und Kontrollaufgaben nicht widmen könnte, weil die Daten für Sie herausgesucht werden müssen.“ Auch Datenschutz wurde genannt, ohne Verweis auf ein entsprechendes Gesetz: “Informationen, wie von Ihnen gewünscht, unterliegen dem Datenschutz. Daher ist eine Auskunft dazu leider nicht möglich.“

Uns wurde auch vorgeworfen, Kliniken wirtschaftlich zu schaden: “So kann unter dem Gesichtspunkt von § 823 BGB, § 1004 BGB (eingerichteter und ausgeübter Gewerbebetrieb) z.B. eine negative betriebsbezogene Berichterstattung im Sinne einer unerlaubten Handlung zu missbilligen sein und einen entsprechenden Unterlassungsanspruch auslösen, wenn dies zu entsprechenden Vermögensnachteilen führt oder solche zu befürchten (sind).”

Ein Gesundheitsamt nahm es als gegeben hin, dass sich einige Krankenhäuser nicht an die gesetzlich vorgeschriebene Meldepflicht halten und daher die Ehrlichen die Dummen wären: “Tatsächlich spricht aber gegen eine Einzelmeldung, dass nicht alle Krankenhäuser ihre MRSA-Fälle melden, das heißt, würden wir die meldenden Krankenhäuser benennen, würden diejenigen bestraft, die sich an die Meldepflicht halten. Jene, die der Meldepflicht nicht nachkommen, würden in einem guten Licht da stehen.“ Dabei ist es Aufgabe der Gesundheitsämter, die Einhaltung des Infektionsschutzgesetzes zu gewährleisten.

Nur eins der Gesundheitsämter brachte ein berechtiges, sachliches Argument vor: “Es sei erwähnt, dass (…) belegbar ist, dass weit überwiegend bei den gemeldeten Fällen schon bei Aufnahme ein positiver MRSA (…) Befund vorgelegen hat! (…) Eine krankenhausinterne Verursachung ist damit nicht ersichtlich (…).“

Woher die Keime kamen? Keine Daten

An diesem Argument zeigt sich die größte Schwäche der offiziellen RKI-Statistik: Sie gibt keine Auskunft darüber, ob sich Patienten einen Keim im Krankenhaus einfingen oder ob sie ihn mitbrachten und er im Krankenhaus ausbrach. Was erstaunlich ist, denn die sogenannten Krankenhauskeime sind ein Schwerpunkt der Bemühungen um mehr Hygiene im Gesundheitswesen. Die konkreten Infektionswege zu kennen sollte selbstverständlich sein.

In Großbritannien müssen Kliniken seit Jahren offenlegen, wie viele MRSA-Fälle sie im vergangenen Jahr hatten. Die Zahl der MRSA-Infektionen ist innerhalb von zehn Jahren von 7.700 auf 862 pro Jahr gesunken – wohl auch eine Folge dieser Transparenz. Auch in Frankreich kann jeder sehen, wie gut die Hygiene in seinem Krankenhaus ist.

Nach langem Hin und Her haben wir für neun der zehn angefragten Kreise eine Auflistung bekommen, die zeigt, wie sich die MRSA-Fälle auf die einzelnen Krankenhäuser verteilen. Die Stadt Mönchengladbach und der Landkreis Goslar wollten uns keine Detailzahlen nennen. Mönchengladbach hat sich das im letzten Moment anders überlegt und kurz vor Veröffentlichung dieses Blogeintrags die Zahlen geschickt. Gegen Goslar haben wir Klage eingereicht und hoffen, die entsprechenden Zahlen nachreichen zu können.

Kategorien: Datenjournalismus

Rostige Brücken, unverständliche Daten

Von 2. September 2014 um 12:14 Uhr
Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Woher stammen die Daten für unsere Karte über den Zustand deutscher Bahnbrücken? Ursprung ist ein Datensatz der Deutschen Bahn, genauer: 16 Datensätze. Die Grünen hatten im Bundestag in kleinen Anfragen wissen wollen, in welchem Zustand die deutschen Bahnbrücken sind. Sie stellten für jedes Bundesland eine entsprechende Anfrage.


Als Antwort veröffentlichte das Bundesverkehrsministerium für jedes Bundesland PDF’s mit langen Listen der Bahn, hier beispielsweise die für Baden-Württemberg. Zum Teil waren die Tabellen dabei nur als Grafik eingebunden. Diese Daten ließen sich dann nur mittels einer Texterkennungssoftware weiterverarbeiten.

Außerdem lieferte die Deutsche Bahn die Informationen in einem Format, das nur die Bahn selbst nutzen kann. Die Lage der Brücken wurde mit einer internen Streckennummer und einer Kilometerbezeichnung angegeben. Dort stand dann also beispielsweise “Karlsruhe, 4111, 23,2 + 33, 23,2 + 36 4″. Karlsruhe ist der Name des Netzsegments, einer internen Aufteilung der Strecken, 4111 ist die Streckennummer. Die Kilometerzahl bezeichnet den Beginn und das Ende der Brücke auf dieser bestimmten Strecke. In diesem Fall also beginnt die oben im Bild zu sehende Brücke an Kilometer 23,2 und 33 Metern und endet an Kilometer 23,2 und 36,4 Metern.

Wo genau sich diese eine Brücke befindet, lässt sich damit nicht sagen. Das aber dürfte die Information sein, die die meisten Bahnfahrer interessiert. Trotzdem hat die Bahn die Daten für den Bundestag nur in ihrem schwer verständlichen Format herausgegeben.

Die Bahn selbst war bei der Suche nach den Standorten keine Hilfe. Die Antwort dort: Das Lokalisieren aller Brücken sei zu aufwändig. Bahnmitarbeiter würden aber TomTom-Navigationsgeräte nutzen, wenn sie zu bestimmten Streckenkilometern fahren sollten. Man solle doch mal bei TomTom nachfragen, da gebe es die Daten vielleicht.

Wir haben dort gar nicht erst gefragt. Wer erfahren will, wo die Schrottbrücken sind, kann auch im sogenannten Eisenbahnatlas nachschlagen. Den gibt es gedruckt zum Preis von 44 Euro.

Glücklicherweise gibt es außerdem das Unternehmen Geo++. Das entwickelt für die Bahn AG geodatenbasierte Anwendungen. Im Internet hat es eine Seite bereitgestellt, auf der sich die Positionen auf dem Streckennetz suchen und anzeigen lassen. Dort allerdings alle 25.919 Brücken einzeln herauszusuchen, ist etwas mühsam.

Geo++ erklärte sich bereit, bei der Darstellung zu helfen und schickte einen Datensatz mit der Geoposition jeder einzelnen Brücke. Erst mit diesem Datensatz war es möglich, die Bauwerke auf eine Karte zu projizieren. Dazu nutzen wir die Karten von MapBox auf der Basis der offenen Daten von OpenStreetMap.

Damit auch andere diese Informationen nutzen können, stellen wir hier den Datensatz zur Verfügung. Außerdem haben wir ihn OpenStreetMap gespendet, beziehungsweise dem Eisenbahn-Ableger der freien Kartensoftware, OpenRailwayMap. Dort fehlen viele Brücken bislang. Die vorliegenden Daten zu Brücken habe man durch Beobachtungen bei Zugfahrten und Auswertungen von freigegebenen Luftbildern gemacht.

Nachtrag 3. September: Simon Woerpel hat die Daten genommen und neu zusammengebaut. Auf seiner Karte ist zu jeder Position das Satellitenbild der Brücke zu sehen.

Nachtrag 8. September: Die Ruhrnachrichten haben eine lokale Version zusammengestellt und nachgefragt, welche der kaputten Brücken in ihrer Region erneuert werden sollen und welche nicht.

 

Kategorien: Datenjournalismus

Festgenommene in Ferguson

Von 22. August 2014 um 16:11 Uhr
Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Wer wurde bei den Protesten in Ferguson in den USA warum festgenommen? Die Washington Post präsentiert hier die Zahlen. Häufigster Grund: “refusal to disperse“, also die Weigerung, sich zu zerstreuen, auseinander zu gehen.

In der Grafik zu sehen sind nur diejenigen, die ins St. Louis County Jail kamen. Nicht enthalten sind Festgenommene, die in Gemeindegefängnissen sitzen. Hier hat die Zeitung noch eine Auflistung der Festnahmen pro Tag der Proteste.

Festgenommene Journalisten sind nicht extra ausgewiesen.

(via @ChElm)

Kategorien: Datenjournalismus

Adressen der Berliner Arztpraxen sind ein Geheimnis

Von 7. April 2014 um 09:42 Uhr

Die Adressen aller Arztpraxen in vier Städten zu besorgen, wie kompliziert kann das schon sein? Immerhin stehen sie in jedem Telefonbuch. In Hamburg, Köln und München war es auch kein Problem, für unser Projekt zur Praxisdichte von den zuständigen Stellen eine Liste aller Ärzte der jeweiligen Stadt zu erhalten. Es genügten einige Telefonate, dann schickten die Kassenärztlichen Vereinigungen ein entsprechendes Excel-Dokument per E-Mail.

Nur in Berlin weigerten sich Ärztekammer und Kassenärztliche Vereinigung (KV) standhaft, die Adressen der niedergelassenen Ärzte herauszugeben. Beide berufen sich auf den Datenschutz. Von der Ärztekammer heißt es zusätzlich am Telefon, die Presse bekäme solche Daten “schon mal gar nicht”.

Wir stellten daher am 4. März an Ärztekammer und Kassenärztliche Vereinigung einen Antrag nach dem Berliner Informationsfreiheitsgesetz und baten darum, uns die Daten in digitaler Form zu übermitteln.

Von der Ärztekammer hörten wir erst einmal gar nichts. Nach zwei Wochen fragten wir nach, was aus unserer Anfrage wurde, eine weitere Woche später kam die erste Reaktion. Von Datenschutz ist nun nicht mehr die Rede. Man sei nicht zuständig sondern allein die KV, heißt es in der E-Mail. Im Übrigen weise man darauf hin, “dass die von Ihnen erwünschte Information auf der Homepage der Kassenärztlichen Vereinigung Berlin verfügbar ist (Arztsuche der KVB)”.

Angesichts der erklärten Open-Data-Strategie Berlins ist das ein befremdliches Verhalten. Ja, die Daten werden sowohl als kostenpflichtiges Buch “Der Arzt – Handbuch des Berliner Gesundheitswesens” als auch als öffentliche Suche der KV und unter Ärzte-Berlin als Suche angeboten. Warum also nicht einfach ein Excel-Dokument verschicken, oder die Daten gleich für alle zum Download anbieten, wenn sie doch offensichtlich elektronisch vorliegen? Schließlich bedeutet Open Data auch, Daten zur weiteren Verarbeitung bereit zu stellen.

Vielleicht weiß die KV mehr? Die Kassenärztliche Vereinigung meldet sich immerhin eine Woche nach unserer Anfrage per Brief. Der Datenschutzbeauftragte der KV schreibt: “Für eine derartige Datenübermittlung von Informationen, die dem Sozialdatenschutz unterliegen, besteht keine Rechtsgrundlage und somit keine Übermittlungsbefugnis.”

Das Argument ist absurd. Die Daten haben keine datenschutzrechtliche Relevanz. Nicht einmal die Namen der Ärzte werden genannt. Es geht um die Adressen der Arztpraxen – also um eine durchaus wichtige Information für jeden Bürger, der sich krank fühlt.

Das sieht auch der Berliner Datenschutzbeauftragte so. Seine Sprecherin sagt, sie wisse nicht, was aus Sicht des Datenschutzes gegen eine Veröffentlichung sprechen solle.

Noch dazu, da diese Daten als Buch angeboten werden. Womit der Eindruck entstehen könnte, die Daten würden nur deshalb zurückgehalten, um das Geschäftsmodell des Verlages zu schützen. Der verlangt für jedes gedruckte Exemplar der Ärzteliste 53,50 Euro.

Nebenbei: Nach dem Berliner IFG Paragraf 4 Absatz 2 darf eine öffentliche Stelle keinen Vertrag mit einem privaten Anbieter schließen, der dem IFG entgegen steht. Die Daten können zwar verkauft werden, sie dürfen dadurch aber nicht für die Öffentlichkeit unzugänglich werden. So soll verhindert werden, dass Verwaltungen Geschäftsmodelle von Unternehmen schützen.

Aber auch die Berliner Senatsverwaltung für Gesundheit hat keine Handhabe gegen die Ärztevertreter. Man könne daran leider nichts ändern, lautet ihre Antwort. Zumindest lässt man im Senat durchblicken, dass man über das Verhalten nicht erfreut sei.

Die Geschichte hat leider kein happy end. Auch nach einem Monat haben sich die Berliner Ärztevertreter nicht bewegt. Der Berliner Beauftragte für Datenschutz und Informationsfreiheit prüft die Ablehnung unserer IFG-Anfrage. Ausgang unklar.

Wir haben die Berliner Praxisdaten letztlich gescrapt, also mit einem Programm automatisch aus der Website der Arztsuche ausgelesen. Genauso wie die Daten der Berliner Zahnärzte – deren Vertreter wollten uns zwar auch nichts schicken, meinten aber immerhin, sie hätten nichts dagegen, wenn wir die Datenbank selbst auslesen würden.

Damit andere das nicht wieder tun müssen, wenn sie eine Idee haben, wie sich diese Informationen noch sinnvoll einsetzen lassen, stellen wir sie hier in einem öffentlichen Googledoc zum Download bereit.

Kategorien: Datenjournalismus

Wer wie viele Waffen hat, geht die Öffentlichkeit nichts an

Von 16. Januar 2014 um 07:56 Uhr
Sportschütze. Quelle: Lars Baron/Getty Images

Sportschütze. Quelle: Lars Baron/Getty Images

Oft beginnt eine Recherche mit einer simplen Frage: In welchen Städten und Landkreisen gibt es eigentlich die meisten Schusswaffen? Und dann stellt man zum eigenen Erstaunen fest: Das weiß in diesem Land keiner so genau – und die einzige Behörde, die die Daten haben könnte, rückt sie nicht heraus.

Seit Januar 2013 müssen alle Städte und Kreise die in ihrer Region registrierten Waffen von Jägern, Sammlern und Sportschützen an das Nationale Waffenregister (NWR) beim Bundesverwaltungsamt in Köln melden. Allein das ist bereits komplizierter als es klingt, denn die Struktur der Meldebehörden ist von Bundesland zu Bundesland unterschiedlich. In manchen Landkreisen gibt es eine solche Behörde, in anderen mehr als zehn. Insgesamt arbeiten daher in Deutschland gut 550 Waffenbehörden.

Ihre Daten liegen dank des Nationalen Waffenregisters beim Bund gesammelt vor, die oben gestellte Frage müsste sich also einfach beantworten lassen. Doch der Öffentlichkeit will die Behörde (sie sagt: kann), keine Angaben aus dieser zentralen Datenbank zur Verfügung stellen. Das sei im Gesetz leider nicht vorgesehen, lautet die Antwort. Man dürfe lediglich die Kriminalämter und Innenministerien mit Statistiken aus dem Waffenregister beliefern, die Öffentlichkeit aber nicht.

Auch ein Antrag nach dem Informationsfreiheitsgesetz des Bundes wird abgelehnt. Auf eine von vielen E-Mails antwortet das Bundesverwaltungsamt der ZEIT: “Bitte betrachten Sie unsere Ablehnung nicht als unhöfliches Vorgehen. Wir sehen leider keine Möglichkeiten, Ihrem aus öffentlichen Interesse erwachsendem Anliegen geeignet zu entsprechen.” Lediglich zwei Zahlen darf man erfahren: 5,5 Millionen legale Schusswaffen gibt es in Deutschland, sie sind verteilt auf 1,45 Millionen Besitzer. Wer wo wie viele hat, bleibt geheim.

27 Tote durch registrierte Waffen

Wir wenden uns an die nächste Ebene, an die 16 Bundesländer und fragen, ob diese uns Zahlen zu Schusswaffen zur Verfügung stellen können. Typisch für den deutschen Föderalismus: Es gibt einzelne Länder, wie Bayern, das Saarland und Mecklenburg-Vorpommern, die die Daten sofort rüberschicken; andere dagegen, wie Niedersachsen, Baden-Württemberg und Hessen, sehen sich dazu nicht in der Lage. Bei diesen Bundesländern müssen wir noch eine Ebene tiefer gehen und die Landratsämter und Rathäuser einzeln anmailen und abtelefonieren – ziemlich nervig und angesichts eines Nationalen Waffenregisters auch irgendwie absurd.

Nach zwei Monaten haben wir endlich alle Daten zusammen. ZEIT ONLINE hat daraus diese Waffenlandkarte erstellt, auf der zum ersten Mal detailliert die regionale Verteilung legaler Pistolen, Revolver und Gewehre in Deutschland sichtbar wird. Wie viele illegale Waffen es wo gibt, weiß naturgemäß niemand.


Zusätzlich haben wir auf dieser Karte noch Todesfälle durch registrierte Schusswaffen im Jahr 2013 eingezeichnet. Wir haben dafür alle in den Medien bekannt gewordenen Fälle aufgegriffen und im Zweifelsfall bei den Staatsanwaltschaften nachgefragt, ob die Waffe legal war oder nicht.

Eine exakte Wissenschaft ist das nicht. Denn die Behörden haben hier überhaupt keine Statistik parat. Weder das Statistische Bundesamt noch das Bundeskriminalamt erfassen, ob bei tödlichen Schüssen eine legale oder eine illegale Waffe verwendet wurde.

Es ist erstaunlich, auf welch dünner Grundlage in diesem Land öffentliche Debatten geführt werden.

Unser Ergebnis: Mindestens 27 Menschen starben im Jahr 2013 durch registrierte Schusswaffen – Selbstmorde ausgenommen. In 27 weiteren Fällen war die Waffe entweder illegal oder ihre Herkunft ist bisher ungeklärt. Die Hälfte der Schusswaffentoten im vergangenen Jahr war also Opfer legaler Pistolen, Revolver oder Gewehre.

Kategorien: Datenjournalismus

Freedom of the Press Foundation bietet Code für anonymen Briefkasten

Von 16. Oktober 2013 um 16:09 Uhr

Nicht zuletzt Edward Snowden zeigt, wie wichtig sogenannte Whistleblower für eine aufgeklärte Gesellschaft sind. Manche Rechtsbrüche kommen nur ans Licht, wenn ein Insider sie publik macht. Da das – wie ebenfalls Snowden und vor allem Chelsea Manning belegen – gefährlich ist, braucht es anonyme Wege, um Sauereien öffentlich zu machen.

Die amerikanische Freedom of the Press Foundation hat nun ein Werkzeug veröffentlicht, um anonyme Datenspenden möglichst sicher zu machen. Entwickelt hat es der vor einiger Zeit verstorbene Hacker Aaron Swartz.

Swartz war ein begabter Programmierer und ein Aktivist der amerikanischen Netzszene, er hat unter anderem das Format RSS mitentwickelt und war bei Creative Commons beteiligt.

Eine seiner letzten Arbeiten war eben eine anonyme Postbox. Für das Magazin New Yorker entwickelte er das System namens Strongbox – unter der Bedingung, dass dessen Code open source sein solle, also allen zur Verfügung stehen. (Hier der Briefkasten des New Yorker)

Den Open-Source-Gedanken hat die Freedom of the Press Foundation nun vollständig umgesetzt. Sie hat das System geprüft und weiterentwickelt und bietet es unter dem Namen SecureDrop kostenlos jedem Medium auf der Welt an, zusammen mit Unterstützung beim Installieren und Hilfe beim Betrieb. Den Code getestet haben unter anderem der Sicherheitanalyst Bruce Schneier und der Entwickler von TOR, Jacob Applebaum.

New Yorker und Freedom of the Press Foundation sind nicht die Ersten, die erkannt haben, wie wichtig anonyme Kommunikationswege zu Lesern und Informanten sind. In Deutschland haben verschiedene Medien solche Briefkästen zum Teil bereits seit Jahren.

ZEIT ONLINE bietet einen an, der ebenfalls open source ist. Der Code kann von jedem kostenlos heruntergeladen und auf seiner Website installiert werden. Genau wie das System von Swartz steht auch der Code des ZEIT-ONLINE-Briefkastens beim Portal Github.

Kategorien: Datenjournalismus

Wie unsere Leser-Karte zu den Kitagebühren entstand

Von 19. September 2013 um 15:49 Uhr

Jedes Kind unter drei Jahren hat in Deutschland einen Rechtsanspruch auf einen Kitaplatz. So schreibt es das Kinderförderungsgesetz seit August dieses Jahres vor. So einfach es klingt, ist es jedoch nicht. Denn das Gesetz regelt nicht, wie die Kommunen diesen Anspruch umsetzen. Es gibt beispielsweise keine bundesweit einheitliche Gebührenordnung, auch die Betreuungszeiten können die Kommunen eigenständig festlegen.

Wir wollten deshalb wissen, was Eltern in Deutschland für die Kinderbetreuung ausgeben. Wo sind die Gebühren besonders hoch, wo sind sie besonders niedrig? Wie stark wird das Einkommen der Eltern berücksichtigt? Aber kein Experte, kein Institut wagt sich an diese Frage. Wir haben uns deshalb entschieden, Eltern selbst zu befragen.

Wir haben in der ZEIT und bei ZEIT ONLINE dazu aufgerufen, ein entsprechendes Formular auszufüllen. Wir wollten Folgendes wissen: die Postleitzahl der Gemeinde, die Anzahl der Kinder in der Familie, für welches Kind welche Kitagebühr gezahlt wird, das Alter des betroffenen Kindes und wie hoch die Kitagebühren in der Gemeinde maximal sind.

Die Daten liefen in ein Spreadsheet bei Google, welches hier eingesehen werden kann. Das Ergebnis ist beeindruckend: Trotz der komplexen Abfrage meldeten sich mehr als 2.400 Eltern bei uns. Sie haben uns über das Onlineformular nicht nur mitgeteilt, was sie für die Kinderbetreuung ausgeben, sondern auch wichtige Hinweise für unsere Recherche gegeben. Sie erzählten uns von drastischen Gebührenerhöhungen, frechen Stadträten und zu wenigen Betreuern.

Wir sind den Hinweisen der Leser nachgegangen und haben Gebühren in armen und reichen Kommunen verglichen, mit Jugendämtern telefoniert und mit Bildungsexperten diskutiert. Viele Angaben aus dem Datensatz haben wir nachrecherchiert. Durch die Analyse der Daten ist aufgefallen, dass die Eltern im Osten weniger zahlen müssen als im Westen. Wir wollten von den Kommunen wissen: Wie setzen sich die Gebühren zusammen? Was ist der Grund für den Unterschied? Es zeigte sich, dass die Kitagruppen im Osten sehr viel größer sind. Damit spart man Personal.

Auch ist klar geworden: Es scheint eine Rolle zu spielen, wie stark eine Kommune verschuldet ist. Ein Vergleich zwischen den Leserdaten und einer Liste der besonders stark verschuldeten und der schuldenfreien Städte zeigte das deutlich.

Am Ende entstand eine Deutschlandkarte, die zeigt, was die Leser von ZEIT und ZEIT ONLINE für die Betreuung ihrer Kinder unter drei Jahren pro Monat zahlen müssen. Je nach Bundesland unterscheiden sich die Gebühren um mehrere Hundert Euro.

Die Karte erhebt keinen Anspruch auf Vollständigkeit, sie ist weder repräsentativ, noch genügt sie wissenschaftlichen Standards. Aber sie spiegelt die Lebenswirklichkeit unserer Leser wider. Zusätzlich zur Deutschlandkarte gibt es eine ausführliche Analyse und weitere Grafiken, die zeigen, wie stark sich die Gebühren von reichen und armen Kommunen unterscheiden.

Wir wollen weitere solcher Datenprojekte starten. Welche Recherche könnten wir mithilfe unserer Leser als Nächstes angehen? Bei welchem Thema würden Sie uns wieder so engagiert unterstützen? Ihre Vorschläge können Sie gerne in den Kommentaren hinterlassen. Oder sie schreiben uns eine E-Mail an online-wirtschaft@zeit.de.

Kategorien: Datenjournalismus

155.965 Datensätze für eine Abgeordnetenbilanz

Von 25. Juli 2013 um 11:15 Uhr

bundestag-4-540x304Im Deutschen Bundestag ist es ruhig geworden: Die Sitzungstage sind vorbei, nur noch ein paar Ausschüsse werkeln vor sich hin. Die meisten Abgeordneten sind in der Sommerpause oder bereits im Wahlkampf. In gut sechs Wochen, am 22. September, wird der nächste Bundestag gewählt.

Was bleibt von dieser 17. Legislaturperiode? Wie hart haben die Fraktionen gearbeitet? Wie aktiv oder untätig waren die einzelnen Abgeordneten? Hat sich das Engagement der Oppositionspolitiker von denen der Spitzenpolitiker unterschieden, was machen die unterschiedlichen Spitzenpolitiker, und was eigentlich die Hinterbänkler?

Diese Fragen haben uns – Sascha Venohr als Head of Data Journalism, die Entwicklungsredakteure Martina Schories und Paul Blickle und die Politikredakteurin Lisa Caspari – beschäftigt. Auf der Grundlage Zehntausender Daten wollen wir eine Art finden, mit der sich die komplizierte und komplexe parlamentarische Arbeit von Parlamentariern verständlich und anschaulich darstellen lässt.

Die Aktivitäten der Abgeordneten sind öffentlich: Sie werden auf der Website des Deutschen Bundestags bis ins Detail protokolliert. Die Datenquelle heißt Dokumentations- und Informationssystem – kurz DIP. Jeder, der will, kann hier jede Information zu den 620 Abgeordneten erhalten. Theoretisch jedenfalls. In der Praxis ist es nicht nur schwierig, sich auf der Seite zurechtzufinden, sondern auch einen Überblick oder gar Vergleichsmöglichkeiten zu bekommen.

Um die Daten grafisch aufzuarbeiten, haben Martina Schories und Sascha Venohr die Dokumentation des DIP gescrapt. Scrapen bedeutet, dass ein kleines Programm so tut, als wäre es ein Benutzer, der verschiedene Suchanfragen an eine Website stellt und dabei die gewünschten Ergebnisse gesammelt abspeichert. Es wurden alle im DIP dokumentierten Aktivitäten von Abgeordneten zwischen dem 27. September 2009 und dem 28. Juni 2013 abgefragt, von der ersten bis zur letzten offiziellen Sitzungswoche. Wertvolle Ratschläge, das DIP zu verstehen, bekamen wir dabei vom Team von OffenesParlament, das schon länger Daten aus dem Dokumentationssystem des Bundestages auswertet und veröffentlicht.

Die Datenmasse, die ZEIT ONLINE durch die zahlreichen Anfragen an das DIP heruntergeladen hat, war riesig; das Laden der Daten dauerte manchmal mehr als eine Nacht. Insgesamt wurden 155.965 Aktivitäten ausgelesen, jede ist einem Parlamentarier zuweisbar. Zunächst arbeiteten wir mit CSV-Dateien, die zum Schluss für jede Aktivität eine Zeile enthielten. Danach wurden die Daten bereinigt, was an einigen Stellen anspruchsvoll war: Einige Abgeordnete hatten in dieser Legislaturperiode geheiratet und waren deswegen unter zwei verschiedenen Namen zu finden; herausgefiltert werden mussten außerdem Bundesratsmitglieder, die im Plenum tätig geworden waren.

Auch nach dem letzten Sitzungstag trug die Bundesverwaltung noch Daten zur Legislaturperiode nach. Erst am 19. Juli 2013 war die Dokumentation vollständig. Die Größe des Datensatzes sprengt jedes Google-Doc, daher können wir nur eine abgespeckte Version veröffentlichen. Sie ist hier einzusehen. Generell gilt: Die Daten spiegeln ausschließlich die Arbeit der Abgeordneten im Plenum des Bundestages wider. Die Arbeit in den Ausschüssen verzeichnet das DIP hingegen leider nicht.

Politikredakteurin Lisa Caspari hat schließlich die Daten aufgearbeitet und inhaltlich gewichtet. Zum besseren Verständnis bildete sie fünf Oberkategorien für die insgesamt 24 vom DIP erfassten Sorten von Aktivitäten. Die Kategorien heißen Rede, Wortbeitrag, Gruppeninitiative, Frage an die Bundesregierung und Antwort der Bundesregierung.

Rede
Eine im Plenum vorgetragene oder aus Zeitgründen zu Protokoll gegebene Rede eines Abgeordneten wurde als Rede kategorisiert.
Wortbeiträge

Ein Beitrag eines Abgeordneten im Plenum, der keine ausformulierte Rede ist, wird als Wortbeitrag definiert. Dazu gehört ein Antrag zur Geschäftsordnung, eine Zwischenfrage bei einer Rede, eine Zusatzfrage in einer Fragestunde an die Bundesregierung, eine Kurzintervention im Parlament, eine Erwiderung auf die Antwort eines Abgeordneten sowie die Persönliche Erklärung gemäß §32GOBT, die Mündliche Erklärung zur Abstimmung (§31GOBT) und die Schriftliche Erklärung zur Abstimmung (§31 GOBT), in denen Abgeordnete ihre abweichende Meinung zum Thema kundtun. Sowie die mündliche Erklärung gemäß §91 GOBT, die (Mündliche) Erklärung zur Aussprache gemäß §30 GOBT und die Erklärung zum Plenarprotokoll.

Gruppeninitiativen
Ein Gesetzentwurf mehrerer Abgeordneter oder einer Fraktion sowie ein Antrag, Entschließungs- oder Änderungsantrag werden als Gruppeninitiative definiert. Damit eine dieser Vorlagen angenommen wird, muss sie mindestens von fünf Prozent aller Abgeordneten unterschrieben sein. Für seine Fraktion berichtet zumeist ein Abgeordneter im Bundestag aus dem Ausschuss. Auch das wurde als Gruppeninitiative kategorisiert, weil der Abgeordnete stellvertretend für seine Fraktionskollegen spricht.

Frage
Die Opposition kann schriftliche Fragen an die Bundesregierung stellen, die diese zu beantworten hat. Es wird unterschieden zwischen kleinen Anfragen zu Sachthemen und großen Anfragen zu zentralen politischen Debatten. Zudem kann jeder Abgeordnete pro Sitzungswoche bis zu zwei Fragen an die Bundesregierung einreichen, die in den Fragestunden jeden Mittwoch an den Sitzungstagen beantwortet werden.
Antwort
In der Fragestunde gibt ein Mitglied der Bundesregierung, meist die Parlamentarischen Staatssekretäre, einen mündlichen Bericht zum Thema der Kabinettssitzung ab und beantwortet die Fragen der Abgeordneten. Diese Tätigkeit ist in den Plenarprotokollen als “Berichterstattung und Beantwortung” und “Antwort” dokumentiert. Im Oktober 2009 kamen noch 28 Antworten von ehemaligen SPD-Staatssekretären und Ministern der großen Koalition.

Mithilfe der Oberkategorien erstellte Infografiker Paul Blickle ein visuelles Konzept zur Aufarbeitung des Datenwusts. Jeder Tätigkeitskategorie wurde eine Farbe zugeordnet und für jeden Abgeordneten eine farbliche Übersicht angefertigt. Sichtbar ist nun ein Kalender mit gefärbten Kästchen für jeden Monat der 17. Legislaturperiode.

So lässt sich auf einen Blick erkennen, in welcher der fünf Kategorien der Abgeordnete seine Arbeitsschwerpunkte setzte. Je intensiver der individuelle Farbwert erscheint, desto aktiver war der Abgeordnete in diesem Monat; Beiträge in verschiedenen Kategorien führen zu Mischfarben. Die fünf Kategorien, die wir für die Einordnung der Arbeit im Bundestag verwenden, finden sich auch als Sortierkriterium wieder. Beispiel: Durch einen Klick auf die Kategorie “Reden” werden die Politiker mit den meisten Reden am Anfang der Liste angezeigt. Durch den Klick auf eine Partei kann der aktivste Redner aus deren Fraktion herausgefiltert werden.

Die zentralen inhaltlichen Ergebnisse unserer Daten-Aufarbeitung hat Lisa Caspari in ihrem Artikel “Die große Abgeordneten-Bilanz” zusammengefasst. Verwiesen sei auch auf den Artikel “Sichtbare und unsichtbare Promis”, der sich mit den Aktivitätsunterschieden zwischen Peer Steinbrück und Angela Merkel befasst. In den kommenden Tagen folgen Interviews mit Spitzenreitern in den verschiedenen Kategorien.

Trotz all der schönen Spitzenwerte und Ranglisten – absolute Aussagen über das politische Engagement der Politiker kann unsere Aktivitätsbilanz nur bedingt treffen. Viele Politiker, die im Parlament im Vergleich zu anderen nicht allzu aktiv waren, hatten dafür gute Gründe: Manche haben ein hohes Parteiamt inne, andere konnten gesundheitsbedingt weniger leisten, als sie wollten. Eine schwächere Farbe oder ein längerer weißer Zeitraum im Kalender eines bestimmten Abgeordneten bedeutet also nicht automatisch, dass er faul war.

Technisch bietet unsere Grafik die Möglichkeit, einzelne Politiker “auszuschneiden”, um sie in andere Websites einzufügen. Den Embed-Code können Sie der Grafik entnehmen. Die Adresszeile im Browser ändert sich, wenn mit der Grafik interagiert wird, wenn also Filter eingestellt werden.  Zum Beispiel gelangen Sie mit diesem Link zur Liste aller Angehörigen der Linkspartei im Bundestag. Die Liste zeigt zudem ein Ranking nach der Anzahl der Fragen an die Bundesregierung – gefiltert lediglich für Linke-Abgeordnete. Wolfgang Nešković — der einzige Politiker im Bundestag, der keiner Fraktion angehört — ist nur über diesen Link zu erreichen. Die Navigation beinhaltet keinen Weg zu ihm.

In der Infografik ist zudem jede der 155.965 Aktivitäten eines Abgeordneten verlinkt – auf die jeweiligen Protokolle in der Bundestagsdokumentation. Schauen Sie sich einmal um!

Bockige Behörden – eine Geschichte auf drei Ebenen

Von 18. April 2013 um 10:10 Uhr

Seit sieben Jahren gilt das Informationsfreiheitsgesetz (IFG), das jedem Bürger das Recht gibt, Akten von Behörden zu sehen und zu erfahren, was die Verwaltung so treibt. Doch noch immer tun sich Ämter schwer damit, Informationen und Daten herauszugeben, sie mauern und tricksen.

ZEIT ONLINE und ZEIT erzählen die Geschichte dieser Blockade auf verschiedenen Wegen. Mit einem Text in der Zeitung und einer längeren Fassung Online und mit einem Interview mit dem Bundesbeauftragten für Informationsfreiheit Peter Schaar. Die Daten, die die Grundlage der Geschichte sind, haben wir außerdem in einer interaktiven Grafik aufbereitet.

Martina Schories hat seitenweise Exceltabellen analysiert und zusammen mit Paul Blickle eine Grafik entworfen, dank der man sich schnell einen Überblick darüber verschaffen kann, welches Ministerium besonders hohe Gebühren verlangt, oder welches viele Anfragen ablehnt. Basis sind Informationen des Bundesinnenministeriums, die auf der dortigen Website jährlich veröffentlicht werden (Hier zum Beispiel aus dem Jahr 2012). Sämtliche von uns verwendeten Daten haben wir hier in einem Google Spreadsheet gesammelt.

Die Programmierung der Grafik übernahmen Stefan Wehrmeyer und Michael Hörz. Beide betreuen die Seite “Frag den Staat”, über die jeder IFG-Anfragen stellen und an Behörden schicken kann. Mit der Materie sind sie also mehr als vertraut.

Neben Text und Grafik gibt es noch eine dritte Ebene. Über unseren anonymen Briefkasten hatte uns ein Leser oder eine Leserin interne Protokolle des Innenministeriums zukommen lassen.

Im BMI trifft sich mindestens zwei Mal im Jahr eine Arbeitsgruppe, um zu beraten, wie mit dem IFG, mit einzelnen Anfragen und mit Gerichtsurteilen zu dem Thema umgegangen werden soll. Die Sitzungen werden stichpunktartig festgehalten. Das PDF-Dokument (das Innenministerium hat uns die Echtheit bestätigt), ist 142 Seiten lang und enthält die Protokolle der Treffen von Januar 2006 bis April 2012. In den Protokollen finden sich viele Andeutungen und Hinweise darauf, wie schwer sich die Ämter mit dem Gesetz und den Informationsforderungen der Bürger tun.

Damit jeder unsere Erkenntnisse nachvollziehen kann, veröffentlichen wir die Protokolle hier im Original. Geschwärzt wurden aufgrund des Persönlichkeitsschutzes lediglich die Namen. Dafür haben wir die Recherche-Plattform DocumentCloud gewählt, auf der Redaktionen namhafter amerikanischer Medien Originaldokumente zur Verfügung stellen. Inzwischen sind dort Millionen Dokumente versammelt. Jedes wird von einer Texterfassungssoftware gescannt. So kann jeder PDFs wie die IFG-Protokolle nach Schlagworten durchsuchen und Kommentare hinzufügen.

ZEIT ONLINE und die Investigativ-Redaktion der ZEIT sind die ersten beiden offiziellen Partner der Plattform in Deutschland. Und die IFG-Protokolle sind das erste Projekt; künftig werden es mehr werden. Schon bald will die Vereinigung Investigative Reporters and Editors (IRE), die DocumentCloud betreibt, eine deutschsprachige Version anbieten. Noch versteht die Texterkennung keine deutschen Umlaute, aber das soll sich ändern.

Fragen und Anregungen gern an einen der drei Autoren: Kai Biermann, Martin Kotynek und Sascha Venohr, der als Head of Data Journalism die drei Ebenen koordiniert hat.

Kategorien: Datenjournalismus

Wo wird in Deutschland rechtsextrem gewählt?

Von 16. November 2012 um 10:17 Uhr

In den ostdeutschen Bundesländern breiten sich rechtsextreme Ansichten laut einer aktuellen Studie der Friedrich Ebert Stiftung massiv aus. Das war die zusammenfassende Lesart in der Berichterstattung über diese Studie. Aber wie schaut es bundesweit mit Wählerstimmen für rechtsextreme Parteien aus? Ist es wirklich in erster Linie ein Phänomen in Ostdeutschland? Eigentlich zunächst nur als Fingerübung in einem internen ZEIT ONLINE Workshop zum Thema Kartenvisualisierungen gedacht, sind wir dieser Frage nachgegangen. Aus Gründen der Vergleichbarkeit boten sich Daten der Bundestagswahl 2009 an. Gregor Aisch steuerte für den Testlauf einen Datensatz bei, der die Ergebnisse auf Wahlkreisebene auch für die kleinen Parteien enthält (im Wahlatlas des Bundeswahlleiters werden diese leider nicht aufgeführt). Im nächsten Schritt wurden daraus die Zweitstimmenanteile der rechtsextremen Parteien NPD, DVU und REP auf einer Karte visualisiert. Je nach Höhe des Stimmenanteils zeigen die Farbintensitäten der Wahlkreise sehr deutlich, wo diese Parteien bereits 2009 die meisten Wählerstimmen sammeln konnten. Die traurigen Höchstwerte erreichen übrigens die ostdeutschen Wahlkreise Sächsische Schweiz – Osterzgebirge und Görlitz mit jeweils 5,9 Prozent.

Realisiert wurde diese Karte mit karthograph.js, eine von Gregor Aisch entwickelte JavaScript Bibliothek. Sie ermöglicht es, interaktive Karten unabhängig von Google-Maps oder anderen – meist mit Details überladenen – Kartenlösungen zu realisieren. Basierend auf den beiden JavaScript-Frameworks jQuery und Raphaël werden SVG-Files (vektorbasierende Grafiken) eingelesen und gerendert. Die Lösung läuft komplett Client-basiert, jedoch werden die Karten initial von einem Python-Script generiert (im vorliegenden Beispiel ist das Shapefile der Wahlkreise des Bundeswahlleiters die Kartengrundlage). Anschließend lassen sich die Karten direkt in die eigene Seite einbauen und mit CSS stylen. Im Workshop mit Gregor Aisch haben wir uns in der ZEIT ONLINE Entwicklungsredaktion vom Potential des noch jungem Tools überzeugt und werden es gerade im Hinblick auf datenjournalistische Projekte einsetzen.