Data Blog

Offene Daten – offene Gesellschaft

Rostige Brücken, unverständliche Daten

Von 2. September 2014 um 12:14 Uhr
Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Woher stammen die Daten für unsere Karte über den Zustand deutscher Bahnbrücken? Ursprung ist ein Datensatz der Deutschen Bahn, genauer: 16 Datensätze. Die Grünen hatten im Bundestag in kleinen Anfragen wissen wollen, in welchem Zustand die deutschen Bahnbrücken sind. Sie stellten für jedes Bundesland eine entsprechende Anfrage.


Als Antwort veröffentlichte das Bundesverkehrsministerium für jedes Bundesland PDF’s mit langen Listen der Bahn, hier beispielsweise die für Baden-Württemberg. Zum Teil waren die Tabellen dabei nur als Grafik eingebunden. Diese Daten ließen sich dann nur mittels einer Texterkennungssoftware weiterverarbeiten.

Außerdem lieferte die Deutsche Bahn die Informationen in einem Format, das nur die Bahn selbst nutzen kann. Die Lage der Brücken wurde mit einer internen Streckennummer und einer Kilometerbezeichnung angegeben. Dort stand dann also beispielsweise “Karlsruhe, 4111, 23,2 + 33, 23,2 + 36 4″. Karlsruhe ist der Name des Netzsegments, einer internen Aufteilung der Strecken, 4111 ist die Streckennummer. Die Kilometerzahl bezeichnet den Beginn und das Ende der Brücke auf dieser bestimmten Strecke. In diesem Fall also beginnt die oben im Bild zu sehende Brücke an Kilometer 23,2 und 33 Metern und endet an Kilometer 23,2 und 36,4 Metern.

Wo genau sich diese eine Brücke befindet, lässt sich damit nicht sagen. Das aber dürfte die Information sein, die die meisten Bahnfahrer interessiert. Trotzdem hat die Bahn die Daten für den Bundestag nur in ihrem schwer verständlichen Format herausgegeben.

Die Bahn selbst war bei der Suche nach den Standorten keine Hilfe. Die Antwort dort: Das Lokalisieren aller Brücken sei zu aufwändig. Bahnmitarbeiter würden aber TomTom-Navigationsgeräte nutzen, wenn sie zu bestimmten Streckenkilometern fahren sollten. Man solle doch mal bei TomTom nachfragen, da gebe es die Daten vielleicht.

Wir haben dort gar nicht erst gefragt. Wer erfahren will, wo die Schrottbrücken sind, kann auch im sogenannten Eisenbahnatlas nachschlagen. Den gibt es gedruckt zum Preis von 44 Euro.

Glücklicherweise gibt es außerdem das Unternehmen Geo++. Das entwickelt für die Bahn AG geodatenbasierte Anwendungen. Im Internet hat es eine Seite bereitgestellt, auf der sich die Positionen auf dem Streckennetz suchen und anzeigen lassen. Dort allerdings alle 25.919 Brücken einzeln herauszusuchen, ist etwas mühsam.

Geo++ erklärte sich bereit, bei der Darstellung zu helfen und schickte einen Datensatz mit der Geoposition jeder einzelnen Brücke. Erst mit diesem Datensatz war es möglich, die Bauwerke auf eine Karte zu projizieren. Dazu nutzen wir die Karten von MapBox auf der Basis der offenen Daten von OpenStreetMap.

Damit auch andere diese Informationen nutzen können, stellen wir hier den Datensatz zur Verfügung. Außerdem haben wir ihn OpenStreetMap gespendet, beziehungsweise dem Eisenbahn-Ableger der freien Kartensoftware, OpenRailwayMap. Dort fehlen viele Brücken bislang. Die vorliegenden Daten zu Brücken habe man durch Beobachtungen bei Zugfahrten und Auswertungen von freigegebenen Luftbildern gemacht.

Kategorien: Datenjournalismus

Festgenommene in Ferguson

Von 22. August 2014 um 16:11 Uhr
Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Wer wurde bei den Protesten in Ferguson in den USA warum festgenommen? Die Washington Post präsentiert hier die Zahlen. Häufigster Grund: “refusal to disperse“, also die Weigerung, sich zu zerstreuen, auseinander zu gehen.

In der Grafik zu sehen sind nur diejenigen, die ins St. Louis County Jail kamen. Nicht enthalten sind Festgenommene, die in Gemeindegefängnissen sitzen. Hier hat die Zeitung noch eine Auflistung der Festnahmen pro Tag der Proteste.

Festgenommene Journalisten sind nicht extra ausgewiesen.

(via @ChElm)

Kategorien: Datenjournalismus

Nicholas Feltons Leben als Datenquelle

Von 21. August 2014 um 16:20 Uhr
Nicholas Feltons Kontaktnetzwerk Quelle: http://feltron.com/FAR13.html

Nicholas Feltons Kontaktnetzwerk Quelle: http://feltron.com/FAR13.html

Jedes Jahr präsentiert Nicholas Felton sein Leben. In Grafiken und Charts zeigt er allen, die es interessiert, womit er seine Zeit verbrachte, was er aß, wie er schlief, wo er sich herumtrieb.

Felton wurde mit seinen Jahresberichten über sich selbst zum Vorreiter einer ganzen Bewegung, die es sich zur Aufgabe gemacht hat, das eigene Tun zu überwachen und zu vermessen: quantified self. Die Idee: Das Selbst mehr oder weniger genau in Daten auszudrücken, um mehr über sich zu erfahren. Und er ist einer der Architekten der Timeline von Facebook, in der den Nutzern Informationen von diversen Quellen präsentiert werden.

Gerade hat Felton zum neunten Mal seinen Bericht veröffentlicht. In diesem Jahr hat er darin vor allem sein Kommunikationsverhalten analysiert. Wie viele E-Mails, wie viele SMS; über welche Themen redete er mit wie vielen Menschen – all das, was Geheimdienste interessiert, wenn sie jemanden ausspähen, hat Felton über sich selbst gesammelt und in aufwendigen Grafiken visualisiert.

Er analysierte dazu die Metadaten und den Inhalt von 44.041 SMS, 31.769 E-Mails, 12.464 Gesprächen, 4.511 Facebook Messages und 1.719 physischen Briefen und Postkarten.

Nicholas Feltons Kommunikation 2013 Quelle: http://feltron.com/FAR13.html

Nicholas Feltons Kommunikation 2013 Quelle: http://feltron.com/FAR13.html

Was hat Felton über sich erfahren? Der Kommunikationsreport 2013 habe ihn zu der Einsicht gebracht, dass er zu viel Zeit mit Belanglosem verbringe. Dem Bits-Blog der New York Times sagte er: “I need to do a better job of engaging in more meaningful communication and spend less time with trivial email and social media.

Wer sich selbst überwachen will, Felton hat inzwischen auch eine kostenpflichtige App entwickelt (nur für iOS), mit der jeder seine eigenen Daten sammeln kann. Übermittelt werden sie nicht. Der Nutzer entscheidet, was er anschließend damit anstellt und ob er sie irgendwann löscht oder zu einem Bericht seines Lebens baut, wie Felton es tut.

Felton tut das nicht zum Selbstzweck, sein Beruf ist es, Daten so aufzubereiten, dass andere sie verstehen können. Daten sind sein Leben. Und nicht nur seins. Unsere Daten seien Teil unserer Identität, sagt er in einem Video der New York Times. Daher sei es wichtig zu wissen, wer Zugriff auf unsere Daten habe und was er damit anstelle.

Racial Profiling in St. Louis

Von 14. August 2014 um 15:16 Uhr
Karte von St. Louis, die Farben zeigen die Ethnie der Bewohner, Weiße in blau, Schwarze in grün. Der eingekreiste Bezirk Ferguson wird von beiden bewohnt. Quelle: US-Zensusdaten, Racial Dot Map

Karte von St. Louis, die Farben zeigen die Ethnie der Bewohner, Weiße in blau, Schwarze in grün. Der eingekreiste Bezirk Ferguson wird von beiden bewohnt. Quelle: US-Zensusdaten, Racial Dot Map

Im Bezirk Ferguson der Stadt St. Louis gibt es seit Tagen Unruhen, ein schwarzer Jugendlicher wurde von einem Polizisten erschossen. Der Vorwurf lautet, dass die Polizei rassistische Vorurteile hegt. In dem Bezirk leben Schwarze und Weiße nebeneinander – ganz im Gegensatz zu den meisten anderen Vierteln der Stadt. Doch werden beide Bevölkerungsgruppen von der Polizei nicht gleich behandelt. Das zeigen Daten des Generalstaatsanwalts des Bundesstaates Missouri, in dem St. Louis liegt.

Seit dem Jahr 2000 gibt es in Missouri ein Gesetz, das von der Polizei fordert, bei jeder Verkehrskontrolle auch die Hautfarbe des Fahrers oder der Fahrerin zu registrieren. Die Daten werden erhoben, um das sogenannte racial profiling zu verhindern, die Ungleichbehandlung von Menschen aufgrund ihrer Hautfarbe. Besonders gut funktioniert das nicht, wie die Daten zeigen, die der Attorney General veröffentlicht hat: Schwarze und Hispanics werden in Missouri häufiger von der Polizei angehalten, häufiger durchsucht und dabei häufiger festgenommen als es ihrem Anteil in der Gesamtbevölkerung entspräche. Gleichzeitig findet die Polizei bei diesen Kontrollen bei ihnen weniger illegale Gegenstände.

Ergänzung: Die Einzeldaten der Bezirke wie Ferguson, die in der Grafik zu sehen sind, finden sich hier.

 

Wen die Polizei in Missouri im Jahr 2013 wie oft bei Verkehrskontrollen anhielt und durchsuchte. Quelle: Missouri Attorney General http://ago.mo.gov/VehicleStops/2013/. Grafik: ZON/Leslie Young

Wen die Polizei in Missouri im Jahr 2013 wie oft bei Verkehrskontrollen anhielt und durchsuchte. Quelle: Missouri Attorney General http://ago.mo.gov/VehicleStops/2013/. Grafik: ZON/Leslie Young

(via St. Louis Post-Dispatch)

Kategorien: Datenvisualisierung

Personalisierte Propaganda

Von 8. August 2014 um 14:22 Uhr
Gilad Lotans Analyse von Twitter-Accounts zum Thema Gaza-Konflikt. Proisraelische Twitterer (hellblau), propalästinensische Twitterer (grün) und internationale Medien (grau). Quelle: Medium

Gilad Lotans Analyse von Twitter-Accounts zum Thema Gaza-Konflikt. Proisraelische Twitterer (hellblau), propalästinensische Twitterer (grün) und internationale Medien (grau). Quelle: Medium

In Konflikten wie dem in Gaza geht die Meinung darüber, was bei den Kämpfen passiert, weit auseinander. Beide Seiten beschuldigen sich immer wieder der Desinformation und beide werfen Medien vor, parteiisch zu sein. Ursache dafür ist ein Phänomen, das Eli Pariser die Filter-Blase genannt hat – beide Seiten informieren sich aus unterschiedlichen Quellen und es gibt kaum Informationslieferanten, die von allen genutzt werden.

Das ist nicht überraschend und auch kein neues Phänomen. Spannend aber ist, wie eindeutig sich dieser Bias in den Daten sozialer Netzwerke beobachten lässt.

Gilad Lotan ist Chief Data Scientist bei Betaworks, einer Risikokapitalfirma, die auch eigene Projekte wie beispielsweise die GIF-Suche Giphy entwickelt. Lotan hat Daten von Twitter, Instagram und anderen Netzwerken analysiert und visualisiert, um diese Form der “personalisierten Propaganda”, wie er es nennt, zu zeigen. Dazu hat er bei Medium einen Text veröffentlicht.

Lotan untersuchte Twitterer, die im Juli 2014 in irgendeiner Form auf die Bombardierung der Schule des Flüchtlingshilfswerks der Vereinten Nationen (UNRWA) in Gaza reagierten. Der Inhalt der Reaktionen waren nicht entscheidend, vielmehr erstellte Lotan eine Karte, auf der die Accounts danach angeordnet wurden, wem sie folgen.

Die Größe der Punkte gibt an, wie viele Follower ein Account hat, je größer der Punkt, desto mehr Menschen folgen diesem Twitterer. Je enger zusammen zwei Punkte stehen, desto mehr gemeinsame Kontakte haben die beiden Accounts – folgen also denselben Quellen. Durch das zweite Kriterium ergaben sich mehrere Cluster oder Ballungen in den Daten. Innerhalb dieser Ballungen folgt man den gleichen Accounts. Dabei ging es nicht darum, was diejenigen twittern, sondern lediglich um die Analyse, wer wem folgt. Zwischen diesen Ballungen bestehen demnach kaum oder gar keine Verbindungen, sie sind deutlich voneinander abgegrenzt.

Lotan konnte so mehrere Gruppen in der Kommunikation über den Konflikt identifizieren. Die von ihm hellblau eingefärbte Wolke auf der linken Seite zeigt Cluster, die vor allem sich selbst und proisraelischen Accounts folgen, die von ihm hellgrün eingefärbte Wolke rechts die Twitterer, die sich vor allem bei (pro-)palästinensischen Quellen informieren. Dazwischen befinden sich – grau eingefärbt – internationale Medien. Am linken Rand oben in dunkelblau sortieren sich Konservative aus den USA und Anhänger der dortigen Tea-Party-Bewegung.

Das Bild legt nahe, dass zwischen diesen einzelnen Gruppen nahezu keine Informationen ausgetauscht werden. Jede kommuniziert vor allem innerhalb ihres eigenen Clusters, da die Accounts nur denen folgen, die ihre Interessen teilen. Das belegt die These von Pariser, dass Menschen in einer Filter-Blase leben, die durch die Werkzeuge des Internets noch verstärkt wird. Denn Netzwerke wie beispielsweise Facebook analysieren, wofür sich jemand interessiert und schicken ihm dann noch mehr solcher Inhalte in seine Timeline, um mehr seiner Aufmerksamkeit und damit mehr Klicks zu bekommen. Bei Twitter ist das anders, trotzdem scheint es die Tendenz zu geben, eher jenen zu folgen, mit denen man übereinstimmt.

In der Grafik von Lotan werden internationale Medien vor allem von der propalästinensischen Gruppe genutzt. Das erkläre, schreibt Lotan, warum in Israel die Überzeugung existiere, internationale Medien würden vor allem israelfeindlich berichten.

Außerdem ist zu sehen, dass es nur eine Quelle gibt, denen beide Fraktionen gleichermaßen folgen: die israelische Zeitung Haaretz. Sie scheint die einzige zu sein, die von beiden Lagern gleichermaßen akzeptiert ist.

Das alles sagt nichts darüber aus, wie Medien über den Konflikt berichten und welche Berichte nun richtig oder falsch sind. Es zeigt aber, dass diejenigen, die die Berichte lesen und kommentieren, sich in vollkommen unterschiedlichen Sphären bewegen. Was die Gefahr erhöht, dass sie kein Verständnis füreinander aufbringen und die andere Seite als Gegner erleben, den es zu bekämpfen gilt. Und es erhöht die Gefahr dafür, dass die Beteiligten auf jeder Seite anfällig für Propaganda sind. Der Krieg am Boden hat also offensichtlich leider auch im Netz zu einer klaren Front geführt.

Noch mal, das ist nicht neu. Aber es ist dank Lotans Analyse nun sichtbar.

Kategorien: Datenprojekt

Graph TV gibt Einblicke in die Fernsehkultur

Von 15. April 2014 um 16:37 Uhr

Nein, wir möchten an dieser Stelle nicht zu viel spoilern, aber sagen wir so: Hochzeiten sind in der Serienwelt von Game of Thrones ein gefährliches Pflaster; unvergessen ist die vorletzte Folge der dritten Staffel, in der gleich mehrere Hauptfiguren das Zeitliche segneten.

Selten hatte eine einzelne TV-Episode für so viele unterschiedliche Reaktionen im Netz und bei den Zuschauern gesorgt; der Begriff Red Wedding ist für viele Serienfans längst ein geflügeltes Wort. Umso überraschender ist, dass die Episode mit einer Nutzerwertung von 9,9 in der Internet Movie Database (IMDb) ziemlich nah dran ist an dem perfekten Ergebnis, wie die Datenvisualisierung Graph TV von Kevin Wu zeigt.

got

Die IMDb gilt als die größte Datenbank für TV- und Filminhalte, und mit ihren Bewertungen als ein guter Gradmesser für die Rezeption in der Öffentlichkeit. Graph TV nimmt diese Nutzerbewertungen und visualisiert sie für jede Serie. Das ist simpel, gibt aber einen interessanten Einblick in die Serienkultur. Die Wertungen von Game of Thrones steigen auch nach drei Staffeln noch leicht, wie die weiße Trendlinie zeigt.

Andere Serien können das nicht von sich behaupten. Der moralische Serienmörder Dexter etwa konnte in der siebten Staffel zwar noch einmal aufholen, bevor er in der achten Staffel dann endgültig – Achtung Spoiler – baden ging. Die letzte Dexter-Episode gilt gemeinhin als ein Desaster der jüngeren TV-Geschichte, wie auch die miese Wertung von 4,9 beweist.

dexter

Generell ist es wenig überraschend, dass die meisten Serien in der Gesamtwertung abfallen, je länger sie dauern. Dr. House, The Big Bang Theory und das kürzlich beendete How I Met Your Mother sind nur drei Beispiele von Serien, die sich nach mehreren Jahren zunehmend erschöpften, wenn auch nur gering.

him

Breaking Bad scheint dagegen eine Ausnahme zu sein. Während die Serie von Beginn an gut aufgenommen wurde, stieg sie sogar mit jeder Staffel um einen viertel Punkt in der Gunst der IMDb-Nutzer. Die Daten korrelieren in diesem Fall stark mit den Einschaltquoten: Während in der ersten Staffel gerade einmal 1,5 Millionen Menschen zuguckten, waren es beim Finale über zehn Millionen.

breakingbad

Doch bedeuten mehr Zuschauer automatisch bessere Bewertungen? Auch wenn Graph TV nicht direkt die Einschaltquoten mitliefert, lässt sich die Annahme schnell widerlegen. Veronica Mars, die Serie, die gerade erst mithilfe einer Crowdfunding-Kampagne verfilmt wurde, hatte zum Ende hin die schlechtesten Einschaltquoten. Bei den den Nutzern von IMDb aber konnte sie zum Ende hin noch einmal sehr positive Bewertungen holen. Denkbar ist, dass die treuen Fans der Serie sich angesichts des drohenden Endes gütiger zeigten.

veronica

Auch ungewöhnliche Phänomene legt GraphTV offen. So fällt bei den Sopranos die gesamte vierte Staffel komplett ab im Vergleich zu den restlichen. Für Kritiker wie Matt Zoller Seitz von Vulture fühlte sich die Staffel an wie “die zweite Hälfte einer sehr langen dritten Staffel”, die Figuren entwickelten sich kaum weiter. Das fiel offenbar auch den Zuschauern auf. Dennoch ist die starke Abweichung von fast einem ganzen Punkt kurios.

sopranos1

Interessant ist zudem, dass viele Serien zu Beginn der Staffel niedriger bewertet werden als zum Ende hin. Beobachten lässt sich das unter anderem bei den beiden erfolgreichen Drama-Serien Mad Men und The Wire.

wire

Eine Erklärung könnte sein, dass diese Serien stark von der Entwicklung ihrer Protagonisten leben, die sich erst im Laufe einer Staffel zeigt. In anderen Worten: Eine gute Serie steigert sich stets zum Ende hin. Und zur Not gibt es ja immer noch blutige Hochzeiten.

(via Wired)

Kategorien: Datenvisualisierung

Adressen der Berliner Arztpraxen sind ein Geheimnis

Von 7. April 2014 um 09:42 Uhr

Die Adressen aller Arztpraxen in vier Städten zu besorgen, wie kompliziert kann das schon sein? Immerhin stehen sie in jedem Telefonbuch. In Hamburg, Köln und München war es auch kein Problem, für unser Projekt zur Praxisdichte von den zuständigen Stellen eine Liste aller Ärzte der jeweiligen Stadt zu erhalten. Es genügten einige Telefonate, dann schickten die Kassenärztlichen Vereinigungen ein entsprechendes Excel-Dokument per E-Mail.

Nur in Berlin weigerten sich Ärztekammer und Kassenärztliche Vereinigung (KV) standhaft, die Adressen der niedergelassenen Ärzte herauszugeben. Beide berufen sich auf den Datenschutz. Von der Ärztekammer heißt es zusätzlich am Telefon, die Presse bekäme solche Daten “schon mal gar nicht”.

Wir stellten daher am 4. März an Ärztekammer und Kassenärztliche Vereinigung einen Antrag nach dem Berliner Informationsfreiheitsgesetz und baten darum, uns die Daten in digitaler Form zu übermitteln.

Von der Ärztekammer hörten wir erst einmal gar nichts. Nach zwei Wochen fragten wir nach, was aus unserer Anfrage wurde, eine weitere Woche später kam die erste Reaktion. Von Datenschutz ist nun nicht mehr die Rede. Man sei nicht zuständig sondern allein die KV, heißt es in der E-Mail. Im Übrigen weise man darauf hin, “dass die von Ihnen erwünschte Information auf der Homepage der Kassenärztlichen Vereinigung Berlin verfügbar ist (Arztsuche der KVB)”.

Angesichts der erklärten Open-Data-Strategie Berlins ist das ein befremdliches Verhalten. Ja, die Daten werden sowohl als kostenpflichtiges Buch “Der Arzt – Handbuch des Berliner Gesundheitswesens” als auch als öffentliche Suche der KV und unter Ärzte-Berlin als Suche angeboten. Warum also nicht einfach ein Excel-Dokument verschicken, oder die Daten gleich für alle zum Download anbieten, wenn sie doch offensichtlich elektronisch vorliegen? Schließlich bedeutet Open Data auch, Daten zur weiteren Verarbeitung bereit zu stellen.

Vielleicht weiß die KV mehr? Die Kassenärztliche Vereinigung meldet sich immerhin eine Woche nach unserer Anfrage per Brief. Der Datenschutzbeauftragte der KV schreibt: “Für eine derartige Datenübermittlung von Informationen, die dem Sozialdatenschutz unterliegen, besteht keine Rechtsgrundlage und somit keine Übermittlungsbefugnis.”

Das Argument ist absurd. Die Daten haben keine datenschutzrechtliche Relevanz. Nicht einmal die Namen der Ärzte werden genannt. Es geht um die Adressen der Arztpraxen – also um eine durchaus wichtige Information für jeden Bürger, der sich krank fühlt.

Das sieht auch der Berliner Datenschutzbeauftragte so. Seine Sprecherin sagt, sie wisse nicht, was aus Sicht des Datenschutzes gegen eine Veröffentlichung sprechen solle.

Noch dazu, da diese Daten als Buch angeboten werden. Womit der Eindruck entstehen könnte, die Daten würden nur deshalb zurückgehalten, um das Geschäftsmodell des Verlages zu schützen. Der verlangt für jedes gedruckte Exemplar der Ärzteliste 53,50 Euro.

Nebenbei: Nach dem Berliner IFG Paragraf 4 Absatz 2 darf eine öffentliche Stelle keinen Vertrag mit einem privaten Anbieter schließen, der dem IFG entgegen steht. Die Daten können zwar verkauft werden, sie dürfen dadurch aber nicht für die Öffentlichkeit unzugänglich werden. So soll verhindert werden, dass Verwaltungen Geschäftsmodelle von Unternehmen schützen.

Aber auch die Berliner Senatsverwaltung für Gesundheit hat keine Handhabe gegen die Ärztevertreter. Man könne daran leider nichts ändern, lautet ihre Antwort. Zumindest lässt man im Senat durchblicken, dass man über das Verhalten nicht erfreut sei.

Die Geschichte hat leider kein happy end. Auch nach einem Monat haben sich die Berliner Ärztevertreter nicht bewegt. Der Berliner Beauftragte für Datenschutz und Informationsfreiheit prüft die Ablehnung unserer IFG-Anfrage. Ausgang unklar.

Wir haben die Berliner Praxisdaten letztlich gescrapt, also mit einem Programm automatisch aus der Website der Arztsuche ausgelesen. Genauso wie die Daten der Berliner Zahnärzte – deren Vertreter wollten uns zwar auch nichts schicken, meinten aber immerhin, sie hätten nichts dagegen, wenn wir die Datenbank selbst auslesen würden.

Damit andere das nicht wieder tun müssen, wenn sie eine Idee haben, wie sich diese Informationen noch sinnvoll einsetzen lassen, stellen wir sie hier in einem öffentlichen Googledoc zum Download bereit.

Kategorien: Datenjournalismus

Neues Wissen aus alten (Telefonbuch-)Daten

Von 21. März 2014 um 09:36 Uhr
Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Daten verbrauchen sich nicht. Mit neuen Fragen lassen sich auch aus alten Daten immer wieder neue Erkenntnisse gewinnen. Patrick Stotz und Achim Tack liefern dafür mit ihrem Projekt Mappable ein Beispiel.

Sie haben alte Telefonbücher aus den Jahren 2004 bis 2012 gekauft und die Daten aus Berlin genutzt, um darin nach Menschen zu suchen, deren Adresse sich im Laufe der Zeit geändert hat. 50.000 haben sie eindeutig identifizieren können, schreiben sie in ihrem Blog zu dem Projekt. Die Umzüge dieser 50.000 innerhalb der Stadt haben sie anschließend auf einer Karte visualisiert. Die Karte zeigt nun, wohin die Menschen in Berlin ziehen.

Das erzählt einiges darüber, wie die Stadt funktioniert.

Demnach ziehen aus den Bezirken Kreuzberg und Neukölln die meisten Menschen weg. Beide sind auf der Karte tiefblau, was für eine hohe Netto-Abwanderung spricht. Gleichzeitig schrumpft die Bevölkerung dort jedoch nicht und aus Berlin selbst ziehen wenige Menschen dorthin. Was bedeutet, dass beide so etwas wie ein Hafen für Einwanderer sind. Offensichtlich ziehen viele, die nach Berlin kommen, erst einmal dorthin. Kreuzberg und Neukölln gelten als spannend, bunt und zentral, die Mieten sind insgesamt trotzdem vergleichsweise niedrig. Entweder verdrängt der Zuzug viele der Alteingesessenen, oder die Neubewohner überlegen es sich später anders und wandern in andere Bezirke weiter.

Den größten Netto-Zuzug in Berlin hat Zehlendorf, ein reicher und ruhiger Bezirk im Südwesten. Die meisten Zuzügler kommen aus Wilmersdorf, Charlottenburg und eben aus Kreuzberg. Das würde die These des Einwanderer-Hafens stützen.

Das ist ein für viele Großstädte klassisches Muster: Junge Menschen ziehen in die Innenstadt, wenn sie für Beruf oder Studium kommen. Wenn sie älter werden, suchen sie ruhigere und auch teurere Bezirke am Rand. Mappable belegt diese Theorie. Und die Telefonbuchdaten erlauben es sogar, das genauer zu tun als die offizielle Statistik. Die kennt als kleinste Ebene nur den Stadtbezirk. Mappable bricht die Daten auch auf Ortsteile herunter und kann damit ein granulares Bild zeichnen.

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Es ist nicht das erste Mal, dass Telefonbücher als Datenquelle genutzt werden, um soziologische Aussagen zu treffen. Aber die Umzugsanalyse ist ein interessanter Ansatz. Die beiden Entwickler sind optimistisch, dass sie mit ihrer Idee eine neue Datenquelle erschlossen haben. In ihrem Blog schreiben sie:
“To sum things up: we are quite enthusiastic about the potential of phone directories as a data source and there are definitely more research questions that can be answered with these data sets besides only migration patterns (e.g. monitoring gentrification processes, identifying ethnicity patterns).”

Kategorien: Datenquelle

Big Data aus dem Weltall

Von 5. März 2014 um 12:28 Uhr
Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert. Quelle: Skybox

Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert Quelle: Skybox

Für alle zugängliche Satellitenbilder? Daran haben wir uns längst gewöhnt. Noch vor ein paar Jahren konnten sich nur Geheimdienste und Regierungen so etwas leisten, inzwischen aber gibt es sie dank Google Earth und anderen Diensten kostenlos für jeden – zumindest statische Aufnahmen der Erde aus dem All.

Nun jedoch sind Satelliten und Kameras so klein und vergleichsweise billig geworden, dass es sich für Unternehmen lohnt, sogar Livebilder aus dem Weltraum anzubieten. Nicht kostenlos, aber für jeden, der bereit ist, dafür Geld zu zahlen.

Zwei Unternehmen arbeiten derzeit daran, eine Flotte von Mikrosatelliten zu starten, um anschließend Fotos und auch Videos von jedem Punkt der Erde auf Bestellung zu verkaufen.

Skybox Imaging ist ein Unternehmen in Palo Alto, Kalifornien. Seit 2009 hat es ungefähr 100 Millionen Dollar Wagniskapital ausgegeben und Satelliten entworfen. Insgesamt 24 will man starten, der erste ist inzwischen im All. Er liefert auf Bestellung 90 Sekunden lange Videos von jedem gewünschten Ort.

Das Sichtfeld der Kamera ist zwei Kilometer mal ein Kilometer groß. Die Auflösung beträgt zwischen 90 und 110 Zentimetern und genügt, um fahrende Autos zu erkennen oder Flugzeugen beim Landen zuzusehen. Für ein Werbevideo ist die Firma beispielsweise über Nordkorea geflogen und hat eine Atomanlage gefilmt.

Looking Down From 600 km Above The Earth’s Surface with HD Video from Skybox Imaging on Vimeo.

Doch das sind nicht die entscheidenden Bilder. Vielmehr machen solche Unternehmen eine neue Form der Datensammlung und Datenauswertung möglich und liefern damit neue Erkenntnisse über den Zustand der Welt und der Wirtschaft.

Natürlich können damit Umweltverschmutzung und Katastrophen genau verfolgt werden: Brandrodung beispielsweise oder Ölteppiche auf dem Meer. Aber solche Themen dürften nur ein eher unbedeutender Teil des Geschäftsmodells sein.

Skybox wirbt damit, beispielsweise den Füllstand von großen Öltanks in Häfen und Raffinerien feststellen und überwachen zu können. Diese Tanks haben ein bewegliches Dach, sind sie voll, ist das Dach weit oben, sind sie leer, ist es unten. Skybox-Kameras schätzen die Füllhöhe und ermöglichen so eine Analyse über Handelsvolumen und Reserven in Ölhäfen.

Skybox wirbt damit, den Containerumschlag in Häfen beobachten zu können und die Zahl von Autos auf einem Parkplatz. Große Firmen und große Einkaufszentren haben große Parkplätze, die Menge der Autos dort sagt etwas über die Höhe der Produktion und die Stärke der Kaufkraft. Auch das Wachstum auf Getreidefeldern könne überwacht werden und damit die Höhe der Erntemengen.

Werden solche Daten zusammengefasst, dürften sie ein ziemlich genaues Barometer der Wirtschaftskraft eines Landes darstellen – in Echtzeit. Wirtschaftskrisen erkennen, Lieferengpässe vorhersagen? Kein Problem. Noch dazu gibt es kaum einen Weg, solche Informationen flächendeckend zu verschleiern. Für Börsenhändler, Finanzberater, Investmentbanken sind solche Daten besser als Gold. Kein Wunder also, dass Skybox viel Kapital sammeln konnte und dass es bereits eine zweite Firma gibt, die das gleiche anbieten will.

Planet Labs hat sogar schon zwei Satelliten gestartet und will insgesamt 28 ins All bringen.

Zusammen mit Drohnen, die ebenfalls immer leichter verfügbar werden, liefern fliegende Kameras völlig neue Einblicke in die Welt. “Big Data. From space“, lautet denn auch einer der Werbesätze von Skybox. Das kann zum Schlechten genutzt werden, zur Überwachung von Bürgern, aber auch zum Guten, um Warenkreisläufe zu verstehen und Probleme vorherzusagen.

Via Wired und @lorz.

Wer wie viele Waffen hat, geht die Öffentlichkeit nichts an

Von 16. Januar 2014 um 07:56 Uhr
Sportschütze. Quelle: Lars Baron/Getty Images

Sportschütze. Quelle: Lars Baron/Getty Images

Oft beginnt eine Recherche mit einer simplen Frage: In welchen Städten und Landkreisen gibt es eigentlich die meisten Schusswaffen? Und dann stellt man zum eigenen Erstaunen fest: Das weiß in diesem Land keiner so genau – und die einzige Behörde, die die Daten haben könnte, rückt sie nicht heraus.

Seit Januar 2013 müssen alle Städte und Kreise die in ihrer Region registrierten Waffen von Jägern, Sammlern und Sportschützen an das Nationale Waffenregister (NWR) beim Bundesverwaltungsamt in Köln melden. Allein das ist bereits komplizierter als es klingt, denn die Struktur der Meldebehörden ist von Bundesland zu Bundesland unterschiedlich. In manchen Landkreisen gibt es eine solche Behörde, in anderen mehr als zehn. Insgesamt arbeiten daher in Deutschland gut 550 Waffenbehörden.

Ihre Daten liegen dank des Nationalen Waffenregisters beim Bund gesammelt vor, die oben gestellte Frage müsste sich also einfach beantworten lassen. Doch der Öffentlichkeit will die Behörde (sie sagt: kann), keine Angaben aus dieser zentralen Datenbank zur Verfügung stellen. Das sei im Gesetz leider nicht vorgesehen, lautet die Antwort. Man dürfe lediglich die Kriminalämter und Innenministerien mit Statistiken aus dem Waffenregister beliefern, die Öffentlichkeit aber nicht.

Auch ein Antrag nach dem Informationsfreiheitsgesetz des Bundes wird abgelehnt. Auf eine von vielen E-Mails antwortet das Bundesverwaltungsamt der ZEIT: “Bitte betrachten Sie unsere Ablehnung nicht als unhöfliches Vorgehen. Wir sehen leider keine Möglichkeiten, Ihrem aus öffentlichen Interesse erwachsendem Anliegen geeignet zu entsprechen.” Lediglich zwei Zahlen darf man erfahren: 5,5 Millionen legale Schusswaffen gibt es in Deutschland, sie sind verteilt auf 1,45 Millionen Besitzer. Wer wo wie viele hat, bleibt geheim.

27 Tote durch registrierte Waffen

Wir wenden uns an die nächste Ebene, an die 16 Bundesländer und fragen, ob diese uns Zahlen zu Schusswaffen zur Verfügung stellen können. Typisch für den deutschen Föderalismus: Es gibt einzelne Länder, wie Bayern, das Saarland und Mecklenburg-Vorpommern, die die Daten sofort rüberschicken; andere dagegen, wie Niedersachsen, Baden-Württemberg und Hessen, sehen sich dazu nicht in der Lage. Bei diesen Bundesländern müssen wir noch eine Ebene tiefer gehen und die Landratsämter und Rathäuser einzeln anmailen und abtelefonieren – ziemlich nervig und angesichts eines Nationalen Waffenregisters auch irgendwie absurd.

Nach zwei Monaten haben wir endlich alle Daten zusammen. ZEIT ONLINE hat daraus diese Waffenlandkarte erstellt, auf der zum ersten Mal detailliert die regionale Verteilung legaler Pistolen, Revolver und Gewehre in Deutschland sichtbar wird. Wie viele illegale Waffen es wo gibt, weiß naturgemäß niemand.


Zusätzlich haben wir auf dieser Karte noch Todesfälle durch registrierte Schusswaffen im Jahr 2013 eingezeichnet. Wir haben dafür alle in den Medien bekannt gewordenen Fälle aufgegriffen und im Zweifelsfall bei den Staatsanwaltschaften nachgefragt, ob die Waffe legal war oder nicht.

Eine exakte Wissenschaft ist das nicht. Denn die Behörden haben hier überhaupt keine Statistik parat. Weder das Statistische Bundesamt noch das Bundeskriminalamt erfassen, ob bei tödlichen Schüssen eine legale oder eine illegale Waffe verwendet wurde.

Es ist erstaunlich, auf welch dünner Grundlage in diesem Land öffentliche Debatten geführt werden.

Unser Ergebnis: Mindestens 27 Menschen starben im Jahr 2013 durch registrierte Schusswaffen – Selbstmorde ausgenommen. In 27 weiteren Fällen war die Waffe entweder illegal oder ihre Herkunft ist bisher ungeklärt. Die Hälfte der Schusswaffentoten im vergangenen Jahr war also Opfer legaler Pistolen, Revolver oder Gewehre.

Kategorien: Datenjournalismus