Data Blog

Offene Daten – offene Gesellschaft

Freedom of the Press Foundation bietet Code für anonymen Briefkasten

Von 16. Oktober 2013 um 16:09 Uhr

Nicht zuletzt Edward Snowden zeigt, wie wichtig sogenannte Whistleblower für eine aufgeklärte Gesellschaft sind. Manche Rechtsbrüche kommen nur ans Licht, wenn ein Insider sie publik macht. Da das – wie ebenfalls Snowden und vor allem Chelsea Manning belegen – gefährlich ist, braucht es anonyme Wege, um Sauereien öffentlich zu machen.

Die amerikanische Freedom of the Press Foundation hat nun ein Werkzeug veröffentlicht, um anonyme Datenspenden möglichst sicher zu machen. Entwickelt hat es der vor einiger Zeit verstorbene Hacker Aaron Swartz.

Swartz war ein begabter Programmierer und ein Aktivist der amerikanischen Netzszene, er hat unter anderem das Format RSS mitentwickelt und war bei Creative Commons beteiligt.

Eine seiner letzten Arbeiten war eben eine anonyme Postbox. Für das Magazin New Yorker entwickelte er das System namens Strongbox – unter der Bedingung, dass dessen Code open source sein solle, also allen zur Verfügung stehen. (Hier der Briefkasten des New Yorker)

Den Open-Source-Gedanken hat die Freedom of the Press Foundation nun vollständig umgesetzt. Sie hat das System geprüft und weiterentwickelt und bietet es unter dem Namen SecureDrop kostenlos jedem Medium auf der Welt an, zusammen mit Unterstützung beim Installieren und Hilfe beim Betrieb. Den Code getestet haben unter anderem der Sicherheitanalyst Bruce Schneier und der Entwickler von TOR, Jacob Applebaum.

New Yorker und Freedom of the Press Foundation sind nicht die Ersten, die erkannt haben, wie wichtig anonyme Kommunikationswege zu Lesern und Informanten sind. In Deutschland haben verschiedene Medien solche Briefkästen zum Teil bereits seit Jahren.

ZEIT ONLINE bietet einen an, der ebenfalls open source ist. Der Code kann von jedem kostenlos heruntergeladen und auf seiner Website installiert werden. Genau wie das System von Swartz steht auch der Code des ZEIT-ONLINE-Briefkastens beim Portal Github.

Kategorien: Datenjournalismus

Wie unsere Leser-Karte zu den Kitagebühren entstand

Von 19. September 2013 um 15:49 Uhr

Jedes Kind unter drei Jahren hat in Deutschland einen Rechtsanspruch auf einen Kitaplatz. So schreibt es das Kinderförderungsgesetz seit August dieses Jahres vor. So einfach es klingt, ist es jedoch nicht. Denn das Gesetz regelt nicht, wie die Kommunen diesen Anspruch umsetzen. Es gibt beispielsweise keine bundesweit einheitliche Gebührenordnung, auch die Betreuungszeiten können die Kommunen eigenständig festlegen.

Wir wollten deshalb wissen, was Eltern in Deutschland für die Kinderbetreuung ausgeben. Wo sind die Gebühren besonders hoch, wo sind sie besonders niedrig? Wie stark wird das Einkommen der Eltern berücksichtigt? Aber kein Experte, kein Institut wagt sich an diese Frage. Wir haben uns deshalb entschieden, Eltern selbst zu befragen.

Wir haben in der ZEIT und bei ZEIT ONLINE dazu aufgerufen, ein entsprechendes Formular auszufüllen. Wir wollten Folgendes wissen: die Postleitzahl der Gemeinde, die Anzahl der Kinder in der Familie, für welches Kind welche Kitagebühr gezahlt wird, das Alter des betroffenen Kindes und wie hoch die Kitagebühren in der Gemeinde maximal sind.

Die Daten liefen in ein Spreadsheet bei Google, welches hier eingesehen werden kann. Das Ergebnis ist beeindruckend: Trotz der komplexen Abfrage meldeten sich mehr als 2.400 Eltern bei uns. Sie haben uns über das Onlineformular nicht nur mitgeteilt, was sie für die Kinderbetreuung ausgeben, sondern auch wichtige Hinweise für unsere Recherche gegeben. Sie erzählten uns von drastischen Gebührenerhöhungen, frechen Stadträten und zu wenigen Betreuern.

Wir sind den Hinweisen der Leser nachgegangen und haben Gebühren in armen und reichen Kommunen verglichen, mit Jugendämtern telefoniert und mit Bildungsexperten diskutiert. Viele Angaben aus dem Datensatz haben wir nachrecherchiert. Durch die Analyse der Daten ist aufgefallen, dass die Eltern im Osten weniger zahlen müssen als im Westen. Wir wollten von den Kommunen wissen: Wie setzen sich die Gebühren zusammen? Was ist der Grund für den Unterschied? Es zeigte sich, dass die Kitagruppen im Osten sehr viel größer sind. Damit spart man Personal.

Auch ist klar geworden: Es scheint eine Rolle zu spielen, wie stark eine Kommune verschuldet ist. Ein Vergleich zwischen den Leserdaten und einer Liste der besonders stark verschuldeten und der schuldenfreien Städte zeigte das deutlich.

Am Ende entstand eine Deutschlandkarte, die zeigt, was die Leser von ZEIT und ZEIT ONLINE für die Betreuung ihrer Kinder unter drei Jahren pro Monat zahlen müssen. Je nach Bundesland unterscheiden sich die Gebühren um mehrere Hundert Euro.

Die Karte erhebt keinen Anspruch auf Vollständigkeit, sie ist weder repräsentativ, noch genügt sie wissenschaftlichen Standards. Aber sie spiegelt die Lebenswirklichkeit unserer Leser wider. Zusätzlich zur Deutschlandkarte gibt es eine ausführliche Analyse und weitere Grafiken, die zeigen, wie stark sich die Gebühren von reichen und armen Kommunen unterscheiden.

Wir wollen weitere solcher Datenprojekte starten. Welche Recherche könnten wir mithilfe unserer Leser als Nächstes angehen? Bei welchem Thema würden Sie uns wieder so engagiert unterstützen? Ihre Vorschläge können Sie gerne in den Kommentaren hinterlassen. Oder sie schreiben uns eine E-Mail an online-wirtschaft@zeit.de.

Kategorien: Datenjournalismus

Ein bunter Punkt für jeden Amerikaner

Von 13. September 2013 um 14:35 Uhr
Verteilung ethnischer Gruppen in den USA: blau - Weiße, grün - Schwarze, rot - Asiaten, orange - Hispanics. Quelle: Dustin A. Cable http://demographics.coopercenter.org/DotMap/index.html

Verteilung ethnischer Gruppen in den USA: blau – Weiße, grün – Schwarze, rot – Asiaten, orange – Hispanics. Quelle: Dustin A. Cable http://demographics.coopercenter.org/DotMap/index.html

Die Frage der segregation, der Trennung der ethnischen Gruppen, treibt die USA noch immer um: Bleiben die mehr als 300 Millionen Menschen verschiedener Herkunft unter sich oder leben sie das amerikanische Ideal der bunt gemischten salad bowl?

Dustin Cable von der University of Virginia hat sich dieser Frage mit Daten genähert und die Racial Dot Map erstellt: Für jeden Bürger gibt es einen Punkt, oft kleiner als ein Pixel. Dieser Punkt wurde dann je nach ethnischer Herkunft entsprechend eingefärbt.

Auf den ersten Blick ist Cables Karte vor allem bunt. Wer hineinzoomt, kann jedoch bis auf den Straßenblock genau sehen, wo Weiße, Afro-Amerikaner, Asiaten oder Hispanics leben.

So ergibt sich ein selten anschauliches Bild: Während zum Beispiel in San Francisco vor allem Mischtöne zu sehen sind, besteht Chicago vielerorts aus verschiedenen, jedoch nahezu einfarbigen Kacheln.

In den großen, dünn besiedelten Gebieten außerhalb der Städte sieht man vornehmlich blauen Dunst – blau steht für Weiße. Mittendrin gibt es dann Städte wir Portland, die zwar vornehmlich blau sind, aber vergleichsweise gut integriert erscheinen.

Als Inspiration diente Cable ein Projekt von Brandon Martin-Anderson vom MIT Media Lab, der eine Karte mit einem schwarzen Punkt für jeden Bürger der USA, Kanadas und Mexikos erstellt hatte. Cable ergänzte dann die Farben für die ethnische Herkunft mit Daten aus dem amerikanischen Zensus 2010. Hier gibt es mehr zur Methodik.

Karte der Einwohner von Detroit und ihrer ethnischen Herkunft: blaue - Weiße, grün - Schwarze. Quelle: Dustin A. Cable http://www.wired.com/design/2013/08/how-segregated-is-your-city-this-eye-opening-map-shows-you/#slideid-210361

Karte der Einwohner von Detroit und ihrer ethnischen Herkunft: blau – Weiße, grün – Schwarze. Quelle: Dustin A. Cable http://www.wired.com/design/2013/08/how-segregated-is-your-city-this-eye-opening-map-shows-you/#slideid-210361

Außerdem korrigierte er das Kartenmaterial in manchen Städten, sodass keine Menschen mehr in Straßen oder Parks angezeigt werden. Erst dadurch werden Phänomene wie das in Detroit sichtbar: Dort trennt die 8 Mile Road exakt die Teile der Stadt, in denen Afro-Amerikaner und Weiße leben.

Kategorien: Datenvisualisierung

Twitter-Monitor

Von 9. September 2013 um 12:17 Uhr

Bei Twitter und anderen sozialen Plattformen machen zwar sehr viele Nutzer mit, aber keiner hat den Überblick darüber, was sie in ihrer Gesamtheit sagen. Wir haben für den Zeitraum vor der Wahl ein Tool entwickelt, das die Twitter-Aktivität zu politischen Themen darstellt. In einer Kooperation mit dem Forschungsprojekt tab4 am Zentrum für digitale Kulturen der Universität Lüneburg und dem Berliner Unternehmen tame wollen wir mit dem TwitterMonitor der Öffentlichkeit den Blick auf sich selbst zurückgeben.

twitmon

Von der knappen Million deutscher Nutzer äußern sich ungefähr ein Zehntel regelmäßig zu Politik. Der TwitterMonitor beobachtet davon die wichtigsten. Die Rangliste der top Zehntausend berücksichtigt neben der Anzahl der Follower wie oft ein Nutzer erwähnt wird und wie viel sie oder er tweetet. Welche Themen als politisch relevant gelten, ergibt sich aufgrund der Themen-Nachbarschaft zu vorgegebenen Stichworten. Das dynamische Berechnungsverfahren sorgt dafür, dass Hashtags wie #NSA oder #veggieday automatisch aufgegriffen werden. In zwei Ansichten zeigt der Monitor eine kurz- und eine langfristige Auswahl von Themen, die wichtigsten die letzten 48 Stunden und die wichtigsten seit Anfang August. Zu jedem Thema werden die Tweets dargestellt, die am häufigsten weitergeleitet wurden. Im Detail schlüsseln die Ansichten auf, welche Nutzergruppen sich an der Diskussion am aktivsten beteiligt haben – Journalisten, Interessenverbände, Nutzer oder Politiker, letztere auch nach Parteizugehörigkeit geordnet. So lässt sich rekonstruieren, wo Debatten ihren Ursprung nehmen, wen welche Themen am meisten beschäftigen und wie sie von einer Nutzergruppe eingebracht und von anderen aufgenommen werden.

An der Entwicklung des twitterMonitor sind Leonard Novy (Institut für Medien- und Kommunikationspolitik / CDC Universität Lüneburg), Stefan Heidenreich (CDC Universität Lüneburg) sowie Arno Dirlam und Frederik Fischer (beide tame) und der Designer Mark Wirblich beteiligt.
twit_mon_logos

Kategorien: Allgemein

Die Drohnen-Dokumente

Von 21. August 2013 um 12:25 Uhr

Wenn es um die Analyse von Informationen geht, sind PDFs nicht unbedingt das zugänglichste Format. Leider bestehen die Drohnen-Dokumente ausschließlich aus PDF-Dateien. Es sind insgesamt 372 Aktenordner mit teilweise mehr als 400 Seiten, von der ersten bis zur letzten Seite eingescannt und als PDF in einem Dateiordner gespeichert. Zusammen ist das Konvolut mehr als 80 Gigabyte groß. Es sind die gleichen Akten, die dem Untersuchungsausschuss des Bundestages zur Verfügung gestellt wurden, um den Fall Euro Hawk zu untersuchen.

Wegen der zum Teil schlechten Scans konnten wir die Akten nicht mit einer Texterkennungssoftware bearbeiten. Eine Datenanalyse ist daher kaum möglich, obwohl sie spannend wäre: Welche Behördenebenen wurden wann informiert, welche Mitarbeiter tauchten wo auf, zu welchen Zeitpunkten gab es die meisten Akten und warum? All diese Fragen hätten mit statistischen Mitteln untersucht werden können, wenn die Daten besser wären.

So aber blieb nur die Handarbeit. Zu sechst haben wir – Philip Faigle, Carsten Luther, Yassin Musharbash, Karsten Polke-Majewski, Thomas Wiegold und Kai Biermann – mehr als zwei Wochen lang gelesen. Allein einen Tag brauchten wir, um die Struktur der Ordner zu verstehen. Denn sie sind nicht chronologisch oder nach Abteilungen sortiert. Sondern nach den Beweisbeschlüssen, die der Untersuchungsausschuss des Bundestages formuliert hat. Die aber sind oft sehr allgemein gefasst, um möglichst viele Akten vom Verteidigungsministerium und seinen nachgeordneten Behörden zu bekommen. Beispielsweise lauten sie: “Es wird Beweis erhoben zum gesamten Untersuchungsauftrag durch Beiziehung sämtlicher Dokumente, Ausarbeitungen, Einschätzungen, Berichte o.ä. (…) zur Problematik SLWÜA zwischen dem 01.01.1999 und dem 18.08.2002″.

Die Ministerialbeamten wiederum haben offensichtlich alles zusammengesucht, was sie unter dem Stichwort Global Hawk / Euro Hawk in ihren Schränken finden konnten und das meistens unsortiert abgeliefert. Entsprechend durcheinander ist der Inhalt der Ordner.

Daher war eine gezielte Recherche nach einzelnen Ereignissen, Daten und Dokumenten unmöglich. Es blieb nur, Ordner für Ordner zu überfliegen und Seite um Seite zu lesen. Dabei stößt man auf so viele Details, dass man sich leicht für Tage darin verliert. Es braucht also Zeit.

Wir haben mit unseren Texten, die wir von heute an veröffentlichen, versucht, eine Balance zu finden. Sie sollen einen Eindruck vom Denken und Handeln der beteiligten Beamten geben und erklären, warum das Projekt Euro Hawk scheiterte, ja von Anfang an scheitern musste. Unsere Beobachtungen stützen wir mit vielen Zitaten aus den Akten.

Sämtliche Dokumente, aus denen wir zitieren, haben wir bei DocumentCloud hochgeladen, um sie allen Lesern zugänglich zu machen. Der Dienst erlaubt es, Anmerkungen und direkte Links zu einzelnen Sätzen zu hinterlegen. Auch enthält er eine Texterkennung, die aber aus den oben genannten Gründen nur schlecht funktioniert. Zusätzlich zu den zitierten haben wir Dokumente online gestellt, von denen wir glauben, dass sie für das Verständnis des ganzen Vorgangs wichtig sind. In DocumentCloud können sie nach Jahren sortiert werden. Das ermöglicht einen besseren Überblick.

Das Bild, das so entsteht, ist umfassend – vollständig ist es nicht. Von den Tausenden Akten haben wir nur einen kleinen Teil hochgeladen. Geschwärzt sind darin lediglich die Namen der Personen, um ihre Persönlichkeitsrechte zu schützen. Informationen haben wir nicht entfernt.

Noch eine Anmerkung: Die Mehrzahl der Dokumente trägt den Stempel “VS – Nur für den Dienstgebrauch”. Das ist die niedrigste Geheimhaltungsstufe, die deutsche Ämter vergeben. Die wirklich geheimen Informationen hingegen sind höher eingestuft und als “Geheim” gestempelt. Solche Akten waren in den Dateien nicht enthalten.

Kategorien: Datensatz

Tokio in 150 Gigapixeln

Von 8. August 2013 um 10:45 Uhr
Ausschnitt aus einem zoombaren Panoramabild von Tokio, das der Fotograf Jeffrey Martin aus 8.000 Einzelfotos zusammengebaut hat.

Ausschnitt aus einem zoombaren Panoramabild von Tokio, das der Fotograf Jeffrey Martin aus 8.000 Einzelfotos zusammengebaut hat

8.000 Fotos in zwei Tagen und vier Monate Arbeit am Computer hat der Fotograf Jeffrey Martin in ein einziges Bild gesteckt. Das Ergebnis ist ein wunderschönes und atemberaubendes Panorama von Tokio. Es bietet einen Rundumblick vom Tokio-Tower auf die Stadt, vor allem aber ist es zoombar. Wer will, kann mit einer Drehung des Mausrades an jeden Punkt des Bildes fliegen und Details in erstaunlicher Auflösung darin entdecken.

Das Bild zeigt mehr, als der menschliche Betrachter tatsächlich sehen könnte, stünde er auf dem Tokio-Tower. So zahlreich sind die Eindrücke und Blickwinkel, dass man sich problemlos in dem Bild verlieren kann.

Hier ist der Link zum Panorama.

Ausschnitt aus dem Tokio-Panorama von Jeffrey Martin

Ausschnitt aus dem Tokio-Panorama von Jeffrey Martin

Martin hat die 8.000 Einzelfotos im September 2012 mit einer Canon 7D, einer digitalen Spiegelreflexkamera, aufgenommen. Die stand auf einem speziellen, programmierbaren Stativ namens Clauss Rodeon (hier in Arbeit zu sehen). Das drehte die Kamera und machte dabei mehr als ein Bild pro Sekunde. Als Linse verwendete Martin ein Teleobjektiv mit einer Brennweite von 400 Millimetern.

Anschließend wurden die Bilder am Computer montiert. Martin schreibt in seinem Blog dazu, dass Photoshop maximal Bilder mit einer Breite von 300.000 Pixeln bearbeiten könne. Das Tokiobild aber sei 600.000 Pixel breit. Weswegen es auch gar nicht als eine Datei existiere. Er habe es in zwei Einzeldateien bearbeitet, jede davon 100 Gigabyte groß. Der Computer, den er dazu verwendete, hatte 192 Gigabyte RAM, trotzdem sei die Bearbeitung nicht wirklich reibungslos gelaufen.

Orchidee in einem der Fenster des weißen Hochhauses

Orchidee in einem der Fenster des weißen Hochhauses

Das Panorama, das im Netz zu sehen ist, besteht aus mehr als einer Million Bildkacheln, die nachgeladen werden, wenn der Nutzer darauf zoomt. Würde man das Bild in normaler Fotoqualität drucken, wäre es 50 Meter hoch und 100 Meter breit.

Martin hat verschiedene solcher Panoramen gemacht, unter anderem von London. Er nennt sein Projekt 360Cities, jeder kann dort seine Panoramabilder hochladen.

(via Gedankenstiele)

Kategorien: Datenprojekt

155.965 Datensätze für eine Abgeordnetenbilanz

Von 25. Juli 2013 um 11:15 Uhr

bundestag-4-540x304Im Deutschen Bundestag ist es ruhig geworden: Die Sitzungstage sind vorbei, nur noch ein paar Ausschüsse werkeln vor sich hin. Die meisten Abgeordneten sind in der Sommerpause oder bereits im Wahlkampf. In gut sechs Wochen, am 22. September, wird der nächste Bundestag gewählt.

Was bleibt von dieser 17. Legislaturperiode? Wie hart haben die Fraktionen gearbeitet? Wie aktiv oder untätig waren die einzelnen Abgeordneten? Hat sich das Engagement der Oppositionspolitiker von denen der Spitzenpolitiker unterschieden, was machen die unterschiedlichen Spitzenpolitiker, und was eigentlich die Hinterbänkler?

Diese Fragen haben uns – Sascha Venohr als Head of Data Journalism, die Entwicklungsredakteure Martina Schories und Paul Blickle und die Politikredakteurin Lisa Caspari – beschäftigt. Auf der Grundlage Zehntausender Daten wollen wir eine Art finden, mit der sich die komplizierte und komplexe parlamentarische Arbeit von Parlamentariern verständlich und anschaulich darstellen lässt.

Die Aktivitäten der Abgeordneten sind öffentlich: Sie werden auf der Website des Deutschen Bundestags bis ins Detail protokolliert. Die Datenquelle heißt Dokumentations- und Informationssystem – kurz DIP. Jeder, der will, kann hier jede Information zu den 620 Abgeordneten erhalten. Theoretisch jedenfalls. In der Praxis ist es nicht nur schwierig, sich auf der Seite zurechtzufinden, sondern auch einen Überblick oder gar Vergleichsmöglichkeiten zu bekommen.

Um die Daten grafisch aufzuarbeiten, haben Martina Schories und Sascha Venohr die Dokumentation des DIP gescrapt. Scrapen bedeutet, dass ein kleines Programm so tut, als wäre es ein Benutzer, der verschiedene Suchanfragen an eine Website stellt und dabei die gewünschten Ergebnisse gesammelt abspeichert. Es wurden alle im DIP dokumentierten Aktivitäten von Abgeordneten zwischen dem 27. September 2009 und dem 28. Juni 2013 abgefragt, von der ersten bis zur letzten offiziellen Sitzungswoche. Wertvolle Ratschläge, das DIP zu verstehen, bekamen wir dabei vom Team von OffenesParlament, das schon länger Daten aus dem Dokumentationssystem des Bundestages auswertet und veröffentlicht.

Die Datenmasse, die ZEIT ONLINE durch die zahlreichen Anfragen an das DIP heruntergeladen hat, war riesig; das Laden der Daten dauerte manchmal mehr als eine Nacht. Insgesamt wurden 155.965 Aktivitäten ausgelesen, jede ist einem Parlamentarier zuweisbar. Zunächst arbeiteten wir mit CSV-Dateien, die zum Schluss für jede Aktivität eine Zeile enthielten. Danach wurden die Daten bereinigt, was an einigen Stellen anspruchsvoll war: Einige Abgeordnete hatten in dieser Legislaturperiode geheiratet und waren deswegen unter zwei verschiedenen Namen zu finden; herausgefiltert werden mussten außerdem Bundesratsmitglieder, die im Plenum tätig geworden waren.

Auch nach dem letzten Sitzungstag trug die Bundesverwaltung noch Daten zur Legislaturperiode nach. Erst am 19. Juli 2013 war die Dokumentation vollständig. Die Größe des Datensatzes sprengt jedes Google-Doc, daher können wir nur eine abgespeckte Version veröffentlichen. Sie ist hier einzusehen. Generell gilt: Die Daten spiegeln ausschließlich die Arbeit der Abgeordneten im Plenum des Bundestages wider. Die Arbeit in den Ausschüssen verzeichnet das DIP hingegen leider nicht.

Politikredakteurin Lisa Caspari hat schließlich die Daten aufgearbeitet und inhaltlich gewichtet. Zum besseren Verständnis bildete sie fünf Oberkategorien für die insgesamt 24 vom DIP erfassten Sorten von Aktivitäten. Die Kategorien heißen Rede, Wortbeitrag, Gruppeninitiative, Frage an die Bundesregierung und Antwort der Bundesregierung.

Rede
Eine im Plenum vorgetragene oder aus Zeitgründen zu Protokoll gegebene Rede eines Abgeordneten wurde als Rede kategorisiert.
Wortbeiträge

Ein Beitrag eines Abgeordneten im Plenum, der keine ausformulierte Rede ist, wird als Wortbeitrag definiert. Dazu gehört ein Antrag zur Geschäftsordnung, eine Zwischenfrage bei einer Rede, eine Zusatzfrage in einer Fragestunde an die Bundesregierung, eine Kurzintervention im Parlament, eine Erwiderung auf die Antwort eines Abgeordneten sowie die Persönliche Erklärung gemäß §32GOBT, die Mündliche Erklärung zur Abstimmung (§31GOBT) und die Schriftliche Erklärung zur Abstimmung (§31 GOBT), in denen Abgeordnete ihre abweichende Meinung zum Thema kundtun. Sowie die mündliche Erklärung gemäß §91 GOBT, die (Mündliche) Erklärung zur Aussprache gemäß §30 GOBT und die Erklärung zum Plenarprotokoll.

Gruppeninitiativen
Ein Gesetzentwurf mehrerer Abgeordneter oder einer Fraktion sowie ein Antrag, Entschließungs- oder Änderungsantrag werden als Gruppeninitiative definiert. Damit eine dieser Vorlagen angenommen wird, muss sie mindestens von fünf Prozent aller Abgeordneten unterschrieben sein. Für seine Fraktion berichtet zumeist ein Abgeordneter im Bundestag aus dem Ausschuss. Auch das wurde als Gruppeninitiative kategorisiert, weil der Abgeordnete stellvertretend für seine Fraktionskollegen spricht.

Frage
Die Opposition kann schriftliche Fragen an die Bundesregierung stellen, die diese zu beantworten hat. Es wird unterschieden zwischen kleinen Anfragen zu Sachthemen und großen Anfragen zu zentralen politischen Debatten. Zudem kann jeder Abgeordnete pro Sitzungswoche bis zu zwei Fragen an die Bundesregierung einreichen, die in den Fragestunden jeden Mittwoch an den Sitzungstagen beantwortet werden.
Antwort
In der Fragestunde gibt ein Mitglied der Bundesregierung, meist die Parlamentarischen Staatssekretäre, einen mündlichen Bericht zum Thema der Kabinettssitzung ab und beantwortet die Fragen der Abgeordneten. Diese Tätigkeit ist in den Plenarprotokollen als “Berichterstattung und Beantwortung” und “Antwort” dokumentiert. Im Oktober 2009 kamen noch 28 Antworten von ehemaligen SPD-Staatssekretären und Ministern der großen Koalition.

Mithilfe der Oberkategorien erstellte Infografiker Paul Blickle ein visuelles Konzept zur Aufarbeitung des Datenwusts. Jeder Tätigkeitskategorie wurde eine Farbe zugeordnet und für jeden Abgeordneten eine farbliche Übersicht angefertigt. Sichtbar ist nun ein Kalender mit gefärbten Kästchen für jeden Monat der 17. Legislaturperiode.

So lässt sich auf einen Blick erkennen, in welcher der fünf Kategorien der Abgeordnete seine Arbeitsschwerpunkte setzte. Je intensiver der individuelle Farbwert erscheint, desto aktiver war der Abgeordnete in diesem Monat; Beiträge in verschiedenen Kategorien führen zu Mischfarben. Die fünf Kategorien, die wir für die Einordnung der Arbeit im Bundestag verwenden, finden sich auch als Sortierkriterium wieder. Beispiel: Durch einen Klick auf die Kategorie “Reden” werden die Politiker mit den meisten Reden am Anfang der Liste angezeigt. Durch den Klick auf eine Partei kann der aktivste Redner aus deren Fraktion herausgefiltert werden.

Die zentralen inhaltlichen Ergebnisse unserer Daten-Aufarbeitung hat Lisa Caspari in ihrem Artikel “Die große Abgeordneten-Bilanz” zusammengefasst. Verwiesen sei auch auf den Artikel “Sichtbare und unsichtbare Promis”, der sich mit den Aktivitätsunterschieden zwischen Peer Steinbrück und Angela Merkel befasst. In den kommenden Tagen folgen Interviews mit Spitzenreitern in den verschiedenen Kategorien.

Trotz all der schönen Spitzenwerte und Ranglisten – absolute Aussagen über das politische Engagement der Politiker kann unsere Aktivitätsbilanz nur bedingt treffen. Viele Politiker, die im Parlament im Vergleich zu anderen nicht allzu aktiv waren, hatten dafür gute Gründe: Manche haben ein hohes Parteiamt inne, andere konnten gesundheitsbedingt weniger leisten, als sie wollten. Eine schwächere Farbe oder ein längerer weißer Zeitraum im Kalender eines bestimmten Abgeordneten bedeutet also nicht automatisch, dass er faul war.

Technisch bietet unsere Grafik die Möglichkeit, einzelne Politiker “auszuschneiden”, um sie in andere Websites einzufügen. Den Embed-Code können Sie der Grafik entnehmen. Die Adresszeile im Browser ändert sich, wenn mit der Grafik interagiert wird, wenn also Filter eingestellt werden.  Zum Beispiel gelangen Sie mit diesem Link zur Liste aller Angehörigen der Linkspartei im Bundestag. Die Liste zeigt zudem ein Ranking nach der Anzahl der Fragen an die Bundesregierung – gefiltert lediglich für Linke-Abgeordnete. Wolfgang Nešković — der einzige Politiker im Bundestag, der keiner Fraktion angehört — ist nur über diesen Link zu erreichen. Die Navigation beinhaltet keinen Weg zu ihm.

In der Infografik ist zudem jede der 155.965 Aktivitäten eines Abgeordneten verlinkt – auf die jeweiligen Protokolle in der Bundestagsdokumentation. Schauen Sie sich einmal um!

Wie unsere Karte zu den Dispo-Zinsen entstand

Von 11. Juli 2013 um 09:12 Uhr

Am Anfang stand ein Thema und eine Frage: Deutsche Banken verstecken oft, wie hoch ihre Überziehungszinsen sind, selbst Verbraucherschützer wissen nicht genau, wie stark die Zinsen variieren. Warum bitten wir nicht unsere Leser, Licht in den Dispo-Dschungel zu bringen?

Die Autorinnen Marlies Uken und Nadine Oberhuber recherchierten, wie das intransparente Geschäft mit den Überziehungszinsen abläuft und stellten Anfang Juni gemeinsam mit unseren Datenjournalisten den Lesern drei Fragen: Wie hoch ist ihr persönlicher Überziehungszins? Wie lautet Ihre Bankleitzahl? Wie Ihre Postleitzahl? Die Leser konnten diese Informationen in einem Formular auf der Website hinterlassen.

Die Resonanz hat uns überrascht. Mehr als 8.000 Leser sind seither dem Aufruf gefolgt und haben ihren Dispo-Zins der Redaktion gemeldet. Das ist eine der höchsten Beteiligungen bei einem sogenannten Crowdsourcing-Projekt in Deutschland. Auf ZEIT ONLINE diskutierten Hunderte Leser über das intransparente Geschäftsgebaren der Banken. Sie erzählten von ihren persönlichen Erfahrungen, ärgerten sich über Bankberater und die Politik. Andere verteidigten hingegen die Banken und sahen die Kunden in der Verantwortung.

Anschließend begann eine wochenlange Arbeit: Die Redaktion hat die höchst und niedrigst genannten Werte nachrecherchiert – und die Institute mit den Ergebnissen konfrontiert. In vielen Fällen wurden die Daten der Leser bestätigt, in anderen Fällen mussten wir die Daten korrigieren, in vier Fällen bekamen wir keine Antwort. Offensichtliche Fehleinträge filterten wir heraus. Insgesamt überprüfte das Rechercheteam die Konditionen von rund 300 Banken. Am Ende entstand eine regionale Übersicht der höchsten Dispo-Zinsen in Deutschland – alles auf Basis der Daten unserer Leser.

abzockerbanken_580

Die Karte erhebt keinen Anspruch auf Vollständigkeit. Aber sie gibt erstmals einen guten Überblick darüber, wie die Bankkonditionen in Deutschland variieren. Ein Ergebnis: Einige Institute verlangen drei Mal so viel Dispo-Zinsen wie faire Banken. Ein anderes Ergebnis: Die ganz großen Abkassierer sind ausgerechnet die Kleinsten. Regionale Volksbanken und Sparkassen, die ihre Vormachtaufstellung auf dem Land ausnutzen.

Wollen Sie unsere Datenbank weiter befüllen? Das Formular finden Sie hier. Unsere Redakteure werden in den nächsten Tagen berichten, wie die Banken auf die Ergebnisse unseres Datenprojekts reagieren.

Bleibt die Frage: Welche Datenrecherche können wir mit unseren Lesern als nächstes angehen? Bei welchem Thema würden Sie uns wieder so engagiert unterstützen? Ihre Vorschläge können Sie gerne in den Kommentaren hinterlassen. Oder sie schreiben uns eine Mail: faigle@zeit.de.

Kategorien: Allgemein, Datenprojekt

Eric Fischers Geodatenwelten

Von 20. Juni 2013 um 12:00 Uhr
Visualisierte Geodaten von Flickr-Fotos in Berlin: blau sind Bilder von Einheimischen, rot zeigt Bilder von Touristen, gelbe Punkte können nicht zugeordnet werden. CC-BY-SA 2.0 Eric Fischer

Visualisierte Geodaten von Flickr-Fotos in Berlin: blau sind Bilder von Einheimischen, rot zeigt Bilder von Touristen, gelbe Punkte können nicht zugeordnet werden. CC-BY-SA 2.0 Eric Fischer

Handys sind Ortungswanzen. Sie zeigen dank GPS-Satelliten und Sendemast-Triangulation, wo wir uns aufhalten. Dienste wie Twitter oder Flickr speichern diese Daten. Und Menschen wie Eric Fischer machen diese Daten sichtbar und damit auch die menschlichen Wege und Vorlieben. Fischer ist Fotograf, Kartenliebhaber und seit einiger Zeit Datenvisualisierer. Und was er aus Flickr und nun auch Twitter herausholt, sieht nicht nur schön aus, es verdeutlicht auch auf einen Blick komplexes Verhalten.

“Locals and Tourists” heißt sein Projekt. Fischer analysiert, wo in Städten der Welt vor allem Einheimische und wo vor allem Touristen twittern und fotografieren.

Zur Analyse von Twitter nutzte er drei Milliarden Tweets aus der Zeit seit September 2011 und sammelte alle heraus, die einen Geo-Tag enthalten, also die Ortskoordinate, an der die Botschaft abgeschickt wurde. Anschließend filterte der diese Botschaften danach, ob sich der Absender schon länger in der Stadt aufhielt oder erst vor Kurzem dorthin gekommen war. Auch das verraten die Geodaten. So konnte er die Stadtpläne in zwei Farben darstellen: blau für Tweets von Einheimischen, rot für die von Touristen.

Das gleiche hatte Fischer zuvor bereits mit Flickr-Daten gemacht, siehe das Bild am Anfang des Textes. Beide Kartensammlungen zeigen, welche Orte einer Stadt bei welcher Gruppe beliebt sind. Hier beispielsweise in New York:

Visualisierung von Twitter-Geodaten. Wo in New York twitterten Einheimische (blau) und wo twitterten Touristen (rot). Eric Fischer/MapBox

Visualisierung von Twitter-Geodaten. Wo in New York twitterten Einheimische (blau) und wo twitterten Touristen (rot). Eric Fischer/MapBox

Noch spannender sind Fischers Projekte, die bei Twitter genutzte Sprachen und die verwendeten Smartphonetypen visualisieren.

Die Karten zu Betriebssystemen zeigen beispielsweise, dass die USA ein iPhone-Land sind, dass Spanien klar von Android dominiert wird und Indonesien von Blackberry. Solche Informationen hatten bis vor kurzer Zeit nur große Konzerne. Fischer nutzt öffentlich verfügbare Daten, um sie allen zugänglich zu machen. Die Daten sind so detailliert, dass sich in ihnen sogar die ringförmige Bauweise des Flughafenterminals von Berlin-Tegel erkennen lässt.

Flughafen Berlin-Tegel, zu sehen sind Geodaten von Tweets, geschrieben mit einem iPhone (rot) und einem Android-Gerät (grün). Eric Fischer/MapBox

Flughafen Berlin-Tegel, zu sehen sind Geodaten von Tweets, geschrieben mit einem iPhone (rot) und einem Android-Gerät (grün). Eric Fischer/MapBox

Und nicht nur das. Sie zeigen beispielsweise auch, dass iPhones vor allem in reichen Gegenden benutzt werden, Androidgeräte eher in ärmeren, wie der Atlantic in den Daten gesehen hat.

Via @msgbi

Wikipedia: Über Israel und Hitler streitet man überall

Von 28. Mai 2013 um 15:21 Uhr
Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Die Wikipedia ist nicht nur eine Enzyklopädie. Sie ist auch ein soziales Experiment. Da sie dank der Zusammenarbeit vieler Menschen entsteht, bietet sie tiefe Einblicke, wer sich wo und wie stark für ein Thema interessiert. Sie ist ein riesiges Testfeld dafür, wie und worüber Menschen miteinander streiten, wie sie sich einigen und wie sie sich organisieren, um zusammenarbeiten zu können.

Mehrere Wissenschaftler haben genau das untersucht. Taha Yasseri, Anselm Spoerri, Mark Graham und János Kertész beobachteten für ihre Studie sogenannte Edit-Wars, Bearbeitungskriege, bei denen streitende Nutzer die Änderungen der Gegenseite immer wieder umschreiben oder gleich komplett rückgängig machen. Sie wollten wissen, ob es regionale Besonderheiten dabei gibt und was diese Debatten über die Menschen aussagen.

Sie taten das nicht nur, um etwas über Streits bei der Wikipedia zu erfahren, sondern auch um die Streitkultur an sich zu erforschen. Dass Religion und Philosophie die am stärksten debattierten Themen sind, wird niemanden verwundern, aber die Analyse lässt sich noch viel weiter treiben. Schon vorangegangene Untersuchungen haben einen Zusammenhang zwischen der Härte von Wikipedia-Debatten und der politischen und wirtschaftlichen Stabilität eines Landes gezeigt.

Was führt zur Eskalation, welche Verfahren fördern einen Konsens, wie organisieren sich die Gegner? All das könne man anhand von Wikipedia-Daten erforschen, schreiben Yasseri, Spoerri, Graham und Kertész in ihrer Studie, die 2014 in einem Buch erscheinen soll.

Weiter…

Kategorien: Datenforschung