Offene Daten – offene Gesellschaft

Autoren Archiv von Kai Biermann

Rostige Brücken, unverständliche Daten

Von 2. September 2014 um 12:14 Uhr
Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Woher stammen die Daten für unsere Karte über den Zustand deutscher Bahnbrücken? Ursprung ist ein Datensatz der Deutschen Bahn, genauer: 16 Datensätze. Die Grünen hatten im Bundestag in kleinen Anfragen wissen wollen, in welchem Zustand die deutschen Bahnbrücken sind. Sie stellten für jedes Bundesland eine entsprechende Anfrage.


Als Antwort veröffentlichte das Bundesverkehrsministerium für jedes Bundesland PDF’s mit langen Listen der Bahn, hier beispielsweise die für Baden-Württemberg. Zum Teil waren die Tabellen dabei nur als Grafik eingebunden. Diese Daten ließen sich dann nur mittels einer Texterkennungssoftware weiterverarbeiten.

Außerdem lieferte die Deutsche Bahn die Informationen in einem Format, das nur die Bahn selbst nutzen kann. Die Lage der Brücken wurde mit einer internen Streckennummer und einer Kilometerbezeichnung angegeben. Dort stand dann also beispielsweise “Karlsruhe, 4111, 23,2 + 33, 23,2 + 36 4″. Karlsruhe ist der Name des Netzsegments, einer internen Aufteilung der Strecken, 4111 ist die Streckennummer. Die Kilometerzahl bezeichnet den Beginn und das Ende der Brücke auf dieser bestimmten Strecke. In diesem Fall also beginnt die oben im Bild zu sehende Brücke an Kilometer 23,2 und 33 Metern und endet an Kilometer 23,2 und 36,4 Metern.

Wo genau sich diese eine Brücke befindet, lässt sich damit nicht sagen. Das aber dürfte die Information sein, die die meisten Bahnfahrer interessiert. Trotzdem hat die Bahn die Daten für den Bundestag nur in ihrem schwer verständlichen Format herausgegeben.

Die Bahn selbst war bei der Suche nach den Standorten keine Hilfe. Die Antwort dort: Das Lokalisieren aller Brücken sei zu aufwändig. Bahnmitarbeiter würden aber TomTom-Navigationsgeräte nutzen, wenn sie zu bestimmten Streckenkilometern fahren sollten. Man solle doch mal bei TomTom nachfragen, da gebe es die Daten vielleicht.

Wir haben dort gar nicht erst gefragt. Wer erfahren will, wo die Schrottbrücken sind, kann auch im sogenannten Eisenbahnatlas nachschlagen. Den gibt es gedruckt zum Preis von 44 Euro.

Glücklicherweise gibt es außerdem das Unternehmen Geo++. Das entwickelt für die Bahn AG geodatenbasierte Anwendungen. Im Internet hat es eine Seite bereitgestellt, auf der sich die Positionen auf dem Streckennetz suchen und anzeigen lassen. Dort allerdings alle 25.919 Brücken einzeln herauszusuchen, ist etwas mühsam.

Geo++ erklärte sich bereit, bei der Darstellung zu helfen und schickte einen Datensatz mit der Geoposition jeder einzelnen Brücke. Erst mit diesem Datensatz war es möglich, die Bauwerke auf eine Karte zu projizieren. Dazu nutzen wir die Karten von MapBox auf der Basis der offenen Daten von OpenStreetMap.

Damit auch andere diese Informationen nutzen können, stellen wir hier den Datensatz zur Verfügung. Außerdem haben wir ihn OpenStreetMap gespendet, beziehungsweise dem Eisenbahn-Ableger der freien Kartensoftware, OpenRailwayMap. Dort fehlen viele Brücken bislang. Die vorliegenden Daten zu Brücken habe man durch Beobachtungen bei Zugfahrten und Auswertungen von freigegebenen Luftbildern gemacht.

Nachtrag 3. September: Simon Woerpel hat die Daten genommen und neu zusammengebaut. Auf seiner Karte ist zu jeder Position das Satellitenbild der Brücke zu sehen.

Nachtrag 8. September: Die Ruhrnachrichten haben eine lokale Version zusammengestellt und nachgefragt, welche der kaputten Brücken in ihrer Region erneuert werden sollen und welche nicht.

 

Kategorien: Datenjournalismus

Festgenommene in Ferguson

Von 22. August 2014 um 16:11 Uhr
Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Wer wurde bei den Protesten in Ferguson in den USA warum festgenommen? Die Washington Post präsentiert hier die Zahlen. Häufigster Grund: “refusal to disperse“, also die Weigerung, sich zu zerstreuen, auseinander zu gehen.

In der Grafik zu sehen sind nur diejenigen, die ins St. Louis County Jail kamen. Nicht enthalten sind Festgenommene, die in Gemeindegefängnissen sitzen. Hier hat die Zeitung noch eine Auflistung der Festnahmen pro Tag der Proteste.

Festgenommene Journalisten sind nicht extra ausgewiesen.

(via @ChElm)

Kategorien: Datenjournalismus

Nicholas Feltons Leben als Datenquelle

Von 21. August 2014 um 16:20 Uhr
Nicholas Feltons Kontaktnetzwerk Quelle: http://feltron.com/FAR13.html

Nicholas Feltons Kontaktnetzwerk Quelle: http://feltron.com/FAR13.html

Jedes Jahr präsentiert Nicholas Felton sein Leben. In Grafiken und Charts zeigt er allen, die es interessiert, womit er seine Zeit verbrachte, was er aß, wie er schlief, wo er sich herumtrieb.

Felton wurde mit seinen Jahresberichten über sich selbst zum Vorreiter einer ganzen Bewegung, die es sich zur Aufgabe gemacht hat, das eigene Tun zu überwachen und zu vermessen: quantified self. Die Idee: Das Selbst mehr oder weniger genau in Daten auszudrücken, um mehr über sich zu erfahren. Und er ist einer der Architekten der Timeline von Facebook, in der den Nutzern Informationen von diversen Quellen präsentiert werden.

Gerade hat Felton zum neunten Mal seinen Bericht veröffentlicht. In diesem Jahr hat er darin vor allem sein Kommunikationsverhalten analysiert. Wie viele E-Mails, wie viele SMS; über welche Themen redete er mit wie vielen Menschen – all das, was Geheimdienste interessiert, wenn sie jemanden ausspähen, hat Felton über sich selbst gesammelt und in aufwendigen Grafiken visualisiert.

Er analysierte dazu die Metadaten und den Inhalt von 44.041 SMS, 31.769 E-Mails, 12.464 Gesprächen, 4.511 Facebook Messages und 1.719 physischen Briefen und Postkarten.

Nicholas Feltons Kommunikation 2013 Quelle: http://feltron.com/FAR13.html

Nicholas Feltons Kommunikation 2013 Quelle: http://feltron.com/FAR13.html

Was hat Felton über sich erfahren? Der Kommunikationsreport 2013 habe ihn zu der Einsicht gebracht, dass er zu viel Zeit mit Belanglosem verbringe. Dem Bits-Blog der New York Times sagte er: “I need to do a better job of engaging in more meaningful communication and spend less time with trivial email and social media.

Wer sich selbst überwachen will, Felton hat inzwischen auch eine kostenpflichtige App entwickelt (nur für iOS), mit der jeder seine eigenen Daten sammeln kann. Übermittelt werden sie nicht. Der Nutzer entscheidet, was er anschließend damit anstellt und ob er sie irgendwann löscht oder zu einem Bericht seines Lebens baut, wie Felton es tut.

Felton tut das nicht zum Selbstzweck, sein Beruf ist es, Daten so aufzubereiten, dass andere sie verstehen können. Daten sind sein Leben. Und nicht nur seins. Unsere Daten seien Teil unserer Identität, sagt er in einem Video der New York Times. Daher sei es wichtig zu wissen, wer Zugriff auf unsere Daten habe und was er damit anstelle.

Racial Profiling in St. Louis

Von 14. August 2014 um 15:16 Uhr
Karte von St. Louis, die Farben zeigen die Ethnie der Bewohner, Weiße in blau, Schwarze in grün. Der eingekreiste Bezirk Ferguson wird von beiden bewohnt. Quelle: US-Zensusdaten, Racial Dot Map

Karte von St. Louis, die Farben zeigen die Ethnie der Bewohner, Weiße in blau, Schwarze in grün. Der eingekreiste Bezirk Ferguson wird von beiden bewohnt. Quelle: US-Zensusdaten, Racial Dot Map

Im Bezirk Ferguson der Stadt St. Louis gibt es seit Tagen Unruhen, ein schwarzer Jugendlicher wurde von einem Polizisten erschossen. Der Vorwurf lautet, dass die Polizei rassistische Vorurteile hegt. In dem Bezirk leben Schwarze und Weiße nebeneinander – ganz im Gegensatz zu den meisten anderen Vierteln der Stadt. Doch werden beide Bevölkerungsgruppen von der Polizei nicht gleich behandelt. Das zeigen Daten des Generalstaatsanwalts des Bundesstaates Missouri, in dem St. Louis liegt.

Seit dem Jahr 2000 gibt es in Missouri ein Gesetz, das von der Polizei fordert, bei jeder Verkehrskontrolle auch die Hautfarbe des Fahrers oder der Fahrerin zu registrieren. Die Daten werden erhoben, um das sogenannte racial profiling zu verhindern, die Ungleichbehandlung von Menschen aufgrund ihrer Hautfarbe. Besonders gut funktioniert das nicht, wie die Daten zeigen, die der Attorney General veröffentlicht hat: Schwarze und Hispanics werden in Missouri häufiger von der Polizei angehalten, häufiger durchsucht und dabei häufiger festgenommen als es ihrem Anteil in der Gesamtbevölkerung entspräche. Gleichzeitig findet die Polizei bei diesen Kontrollen bei ihnen weniger illegale Gegenstände.

Ergänzung: Die Einzeldaten der Bezirke wie Ferguson, die in der Grafik zu sehen sind, finden sich hier.

 

Wen die Polizei in Missouri im Jahr 2013 wie oft bei Verkehrskontrollen anhielt und durchsuchte. Quelle: Missouri Attorney General http://ago.mo.gov/VehicleStops/2013/. Grafik: ZON/Leslie Young

Wen die Polizei in Missouri im Jahr 2013 wie oft bei Verkehrskontrollen anhielt und durchsuchte. Quelle: Missouri Attorney General http://ago.mo.gov/VehicleStops/2013/. Grafik: ZON/Leslie Young

(via St. Louis Post-Dispatch)

Kategorien: Datenvisualisierung

Personalisierte Propaganda

Von 8. August 2014 um 14:22 Uhr
Gilad Lotans Analyse von Twitter-Accounts zum Thema Gaza-Konflikt. Proisraelische Twitterer (hellblau), propalästinensische Twitterer (grün) und internationale Medien (grau). Quelle: Medium

Gilad Lotans Analyse von Twitter-Accounts zum Thema Gaza-Konflikt. Proisraelische Twitterer (hellblau), propalästinensische Twitterer (grün) und internationale Medien (grau). Quelle: Medium

In Konflikten wie dem in Gaza geht die Meinung darüber, was bei den Kämpfen passiert, weit auseinander. Beide Seiten beschuldigen sich immer wieder der Desinformation und beide werfen Medien vor, parteiisch zu sein. Ursache dafür ist ein Phänomen, das Eli Pariser die Filter-Blase genannt hat – beide Seiten informieren sich aus unterschiedlichen Quellen und es gibt kaum Informationslieferanten, die von allen genutzt werden.

Das ist nicht überraschend und auch kein neues Phänomen. Spannend aber ist, wie eindeutig sich dieser Bias in den Daten sozialer Netzwerke beobachten lässt.

Gilad Lotan ist Chief Data Scientist bei Betaworks, einer Risikokapitalfirma, die auch eigene Projekte wie beispielsweise die GIF-Suche Giphy entwickelt. Lotan hat Daten von Twitter, Instagram und anderen Netzwerken analysiert und visualisiert, um diese Form der “personalisierten Propaganda”, wie er es nennt, zu zeigen. Dazu hat er bei Medium einen Text veröffentlicht.

Lotan untersuchte Twitterer, die im Juli 2014 in irgendeiner Form auf die Bombardierung der Schule des Flüchtlingshilfswerks der Vereinten Nationen (UNRWA) in Gaza reagierten. Der Inhalt der Reaktionen waren nicht entscheidend, vielmehr erstellte Lotan eine Karte, auf der die Accounts danach angeordnet wurden, wem sie folgen.

Die Größe der Punkte gibt an, wie viele Follower ein Account hat, je größer der Punkt, desto mehr Menschen folgen diesem Twitterer. Je enger zusammen zwei Punkte stehen, desto mehr gemeinsame Kontakte haben die beiden Accounts – folgen also denselben Quellen. Durch das zweite Kriterium ergaben sich mehrere Cluster oder Ballungen in den Daten. Innerhalb dieser Ballungen folgt man den gleichen Accounts. Dabei ging es nicht darum, was diejenigen twittern, sondern lediglich um die Analyse, wer wem folgt. Zwischen diesen Ballungen bestehen demnach kaum oder gar keine Verbindungen, sie sind deutlich voneinander abgegrenzt.

Lotan konnte so mehrere Gruppen in der Kommunikation über den Konflikt identifizieren. Die von ihm hellblau eingefärbte Wolke auf der linken Seite zeigt Cluster, die vor allem sich selbst und proisraelischen Accounts folgen, die von ihm hellgrün eingefärbte Wolke rechts die Twitterer, die sich vor allem bei (pro-)palästinensischen Quellen informieren. Dazwischen befinden sich – grau eingefärbt – internationale Medien. Am linken Rand oben in dunkelblau sortieren sich Konservative aus den USA und Anhänger der dortigen Tea-Party-Bewegung.

Das Bild legt nahe, dass zwischen diesen einzelnen Gruppen nahezu keine Informationen ausgetauscht werden. Jede kommuniziert vor allem innerhalb ihres eigenen Clusters, da die Accounts nur denen folgen, die ihre Interessen teilen. Das belegt die These von Pariser, dass Menschen in einer Filter-Blase leben, die durch die Werkzeuge des Internets noch verstärkt wird. Denn Netzwerke wie beispielsweise Facebook analysieren, wofür sich jemand interessiert und schicken ihm dann noch mehr solcher Inhalte in seine Timeline, um mehr seiner Aufmerksamkeit und damit mehr Klicks zu bekommen. Bei Twitter ist das anders, trotzdem scheint es die Tendenz zu geben, eher jenen zu folgen, mit denen man übereinstimmt.

In der Grafik von Lotan werden internationale Medien vor allem von der propalästinensischen Gruppe genutzt. Das erkläre, schreibt Lotan, warum in Israel die Überzeugung existiere, internationale Medien würden vor allem israelfeindlich berichten.

Außerdem ist zu sehen, dass es nur eine Quelle gibt, denen beide Fraktionen gleichermaßen folgen: die israelische Zeitung Haaretz. Sie scheint die einzige zu sein, die von beiden Lagern gleichermaßen akzeptiert ist.

Das alles sagt nichts darüber aus, wie Medien über den Konflikt berichten und welche Berichte nun richtig oder falsch sind. Es zeigt aber, dass diejenigen, die die Berichte lesen und kommentieren, sich in vollkommen unterschiedlichen Sphären bewegen. Was die Gefahr erhöht, dass sie kein Verständnis füreinander aufbringen und die andere Seite als Gegner erleben, den es zu bekämpfen gilt. Und es erhöht die Gefahr dafür, dass die Beteiligten auf jeder Seite anfällig für Propaganda sind. Der Krieg am Boden hat also offensichtlich leider auch im Netz zu einer klaren Front geführt.

Noch mal, das ist nicht neu. Aber es ist dank Lotans Analyse nun sichtbar.

Kategorien: Datenprojekt

Adressen der Berliner Arztpraxen sind ein Geheimnis

Von 7. April 2014 um 09:42 Uhr

Die Adressen aller Arztpraxen in vier Städten zu besorgen, wie kompliziert kann das schon sein? Immerhin stehen sie in jedem Telefonbuch. In Hamburg, Köln und München war es auch kein Problem, für unser Projekt zur Praxisdichte von den zuständigen Stellen eine Liste aller Ärzte der jeweiligen Stadt zu erhalten. Es genügten einige Telefonate, dann schickten die Kassenärztlichen Vereinigungen ein entsprechendes Excel-Dokument per E-Mail.

Nur in Berlin weigerten sich Ärztekammer und Kassenärztliche Vereinigung (KV) standhaft, die Adressen der niedergelassenen Ärzte herauszugeben. Beide berufen sich auf den Datenschutz. Von der Ärztekammer heißt es zusätzlich am Telefon, die Presse bekäme solche Daten “schon mal gar nicht”.

Wir stellten daher am 4. März an Ärztekammer und Kassenärztliche Vereinigung einen Antrag nach dem Berliner Informationsfreiheitsgesetz und baten darum, uns die Daten in digitaler Form zu übermitteln.

Von der Ärztekammer hörten wir erst einmal gar nichts. Nach zwei Wochen fragten wir nach, was aus unserer Anfrage wurde, eine weitere Woche später kam die erste Reaktion. Von Datenschutz ist nun nicht mehr die Rede. Man sei nicht zuständig sondern allein die KV, heißt es in der E-Mail. Im Übrigen weise man darauf hin, “dass die von Ihnen erwünschte Information auf der Homepage der Kassenärztlichen Vereinigung Berlin verfügbar ist (Arztsuche der KVB)”.

Angesichts der erklärten Open-Data-Strategie Berlins ist das ein befremdliches Verhalten. Ja, die Daten werden sowohl als kostenpflichtiges Buch “Der Arzt – Handbuch des Berliner Gesundheitswesens” als auch als öffentliche Suche der KV und unter Ärzte-Berlin als Suche angeboten. Warum also nicht einfach ein Excel-Dokument verschicken, oder die Daten gleich für alle zum Download anbieten, wenn sie doch offensichtlich elektronisch vorliegen? Schließlich bedeutet Open Data auch, Daten zur weiteren Verarbeitung bereit zu stellen.

Vielleicht weiß die KV mehr? Die Kassenärztliche Vereinigung meldet sich immerhin eine Woche nach unserer Anfrage per Brief. Der Datenschutzbeauftragte der KV schreibt: “Für eine derartige Datenübermittlung von Informationen, die dem Sozialdatenschutz unterliegen, besteht keine Rechtsgrundlage und somit keine Übermittlungsbefugnis.”

Das Argument ist absurd. Die Daten haben keine datenschutzrechtliche Relevanz. Nicht einmal die Namen der Ärzte werden genannt. Es geht um die Adressen der Arztpraxen – also um eine durchaus wichtige Information für jeden Bürger, der sich krank fühlt.

Das sieht auch der Berliner Datenschutzbeauftragte so. Seine Sprecherin sagt, sie wisse nicht, was aus Sicht des Datenschutzes gegen eine Veröffentlichung sprechen solle.

Noch dazu, da diese Daten als Buch angeboten werden. Womit der Eindruck entstehen könnte, die Daten würden nur deshalb zurückgehalten, um das Geschäftsmodell des Verlages zu schützen. Der verlangt für jedes gedruckte Exemplar der Ärzteliste 53,50 Euro.

Nebenbei: Nach dem Berliner IFG Paragraf 4 Absatz 2 darf eine öffentliche Stelle keinen Vertrag mit einem privaten Anbieter schließen, der dem IFG entgegen steht. Die Daten können zwar verkauft werden, sie dürfen dadurch aber nicht für die Öffentlichkeit unzugänglich werden. So soll verhindert werden, dass Verwaltungen Geschäftsmodelle von Unternehmen schützen.

Aber auch die Berliner Senatsverwaltung für Gesundheit hat keine Handhabe gegen die Ärztevertreter. Man könne daran leider nichts ändern, lautet ihre Antwort. Zumindest lässt man im Senat durchblicken, dass man über das Verhalten nicht erfreut sei.

Die Geschichte hat leider kein happy end. Auch nach einem Monat haben sich die Berliner Ärztevertreter nicht bewegt. Der Berliner Beauftragte für Datenschutz und Informationsfreiheit prüft die Ablehnung unserer IFG-Anfrage. Ausgang unklar.

Wir haben die Berliner Praxisdaten letztlich gescrapt, also mit einem Programm automatisch aus der Website der Arztsuche ausgelesen. Genauso wie die Daten der Berliner Zahnärzte – deren Vertreter wollten uns zwar auch nichts schicken, meinten aber immerhin, sie hätten nichts dagegen, wenn wir die Datenbank selbst auslesen würden.

Damit andere das nicht wieder tun müssen, wenn sie eine Idee haben, wie sich diese Informationen noch sinnvoll einsetzen lassen, stellen wir sie hier in einem öffentlichen Googledoc zum Download bereit.

Kategorien: Datenjournalismus

Neues Wissen aus alten (Telefonbuch-)Daten

Von 21. März 2014 um 09:36 Uhr
Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Daten verbrauchen sich nicht. Mit neuen Fragen lassen sich auch aus alten Daten immer wieder neue Erkenntnisse gewinnen. Patrick Stotz und Achim Tack liefern dafür mit ihrem Projekt Mappable ein Beispiel.

Sie haben alte Telefonbücher aus den Jahren 2004 bis 2012 gekauft und die Daten aus Berlin genutzt, um darin nach Menschen zu suchen, deren Adresse sich im Laufe der Zeit geändert hat. 50.000 haben sie eindeutig identifizieren können, schreiben sie in ihrem Blog zu dem Projekt. Die Umzüge dieser 50.000 innerhalb der Stadt haben sie anschließend auf einer Karte visualisiert. Die Karte zeigt nun, wohin die Menschen in Berlin ziehen.

Das erzählt einiges darüber, wie die Stadt funktioniert.

Demnach ziehen aus den Bezirken Kreuzberg und Neukölln die meisten Menschen weg. Beide sind auf der Karte tiefblau, was für eine hohe Netto-Abwanderung spricht. Gleichzeitig schrumpft die Bevölkerung dort jedoch nicht und aus Berlin selbst ziehen wenige Menschen dorthin. Was bedeutet, dass beide so etwas wie ein Hafen für Einwanderer sind. Offensichtlich ziehen viele, die nach Berlin kommen, erst einmal dorthin. Kreuzberg und Neukölln gelten als spannend, bunt und zentral, die Mieten sind insgesamt trotzdem vergleichsweise niedrig. Entweder verdrängt der Zuzug viele der Alteingesessenen, oder die Neubewohner überlegen es sich später anders und wandern in andere Bezirke weiter.

Den größten Netto-Zuzug in Berlin hat Zehlendorf, ein reicher und ruhiger Bezirk im Südwesten. Die meisten Zuzügler kommen aus Wilmersdorf, Charlottenburg und eben aus Kreuzberg. Das würde die These des Einwanderer-Hafens stützen.

Das ist ein für viele Großstädte klassisches Muster: Junge Menschen ziehen in die Innenstadt, wenn sie für Beruf oder Studium kommen. Wenn sie älter werden, suchen sie ruhigere und auch teurere Bezirke am Rand. Mappable belegt diese Theorie. Und die Telefonbuchdaten erlauben es sogar, das genauer zu tun als die offizielle Statistik. Die kennt als kleinste Ebene nur den Stadtbezirk. Mappable bricht die Daten auch auf Ortsteile herunter und kann damit ein granulares Bild zeichnen.

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Es ist nicht das erste Mal, dass Telefonbücher als Datenquelle genutzt werden, um soziologische Aussagen zu treffen. Aber die Umzugsanalyse ist ein interessanter Ansatz. Die beiden Entwickler sind optimistisch, dass sie mit ihrer Idee eine neue Datenquelle erschlossen haben. In ihrem Blog schreiben sie:
“To sum things up: we are quite enthusiastic about the potential of phone directories as a data source and there are definitely more research questions that can be answered with these data sets besides only migration patterns (e.g. monitoring gentrification processes, identifying ethnicity patterns).”

Kategorien: Datenquelle

Big Data aus dem Weltall

Von 5. März 2014 um 12:28 Uhr
Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert. Quelle: Skybox

Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert Quelle: Skybox

Für alle zugängliche Satellitenbilder? Daran haben wir uns längst gewöhnt. Noch vor ein paar Jahren konnten sich nur Geheimdienste und Regierungen so etwas leisten, inzwischen aber gibt es sie dank Google Earth und anderen Diensten kostenlos für jeden – zumindest statische Aufnahmen der Erde aus dem All.

Nun jedoch sind Satelliten und Kameras so klein und vergleichsweise billig geworden, dass es sich für Unternehmen lohnt, sogar Livebilder aus dem Weltraum anzubieten. Nicht kostenlos, aber für jeden, der bereit ist, dafür Geld zu zahlen.

Zwei Unternehmen arbeiten derzeit daran, eine Flotte von Mikrosatelliten zu starten, um anschließend Fotos und auch Videos von jedem Punkt der Erde auf Bestellung zu verkaufen.

Skybox Imaging ist ein Unternehmen in Palo Alto, Kalifornien. Seit 2009 hat es ungefähr 100 Millionen Dollar Wagniskapital ausgegeben und Satelliten entworfen. Insgesamt 24 will man starten, der erste ist inzwischen im All. Er liefert auf Bestellung 90 Sekunden lange Videos von jedem gewünschten Ort.

Das Sichtfeld der Kamera ist zwei Kilometer mal ein Kilometer groß. Die Auflösung beträgt zwischen 90 und 110 Zentimetern und genügt, um fahrende Autos zu erkennen oder Flugzeugen beim Landen zuzusehen. Für ein Werbevideo ist die Firma beispielsweise über Nordkorea geflogen und hat eine Atomanlage gefilmt.

Looking Down From 600 km Above The Earth’s Surface with HD Video from Skybox Imaging on Vimeo.

Doch das sind nicht die entscheidenden Bilder. Vielmehr machen solche Unternehmen eine neue Form der Datensammlung und Datenauswertung möglich und liefern damit neue Erkenntnisse über den Zustand der Welt und der Wirtschaft.

Natürlich können damit Umweltverschmutzung und Katastrophen genau verfolgt werden: Brandrodung beispielsweise oder Ölteppiche auf dem Meer. Aber solche Themen dürften nur ein eher unbedeutender Teil des Geschäftsmodells sein.

Skybox wirbt damit, beispielsweise den Füllstand von großen Öltanks in Häfen und Raffinerien feststellen und überwachen zu können. Diese Tanks haben ein bewegliches Dach, sind sie voll, ist das Dach weit oben, sind sie leer, ist es unten. Skybox-Kameras schätzen die Füllhöhe und ermöglichen so eine Analyse über Handelsvolumen und Reserven in Ölhäfen.

Skybox wirbt damit, den Containerumschlag in Häfen beobachten zu können und die Zahl von Autos auf einem Parkplatz. Große Firmen und große Einkaufszentren haben große Parkplätze, die Menge der Autos dort sagt etwas über die Höhe der Produktion und die Stärke der Kaufkraft. Auch das Wachstum auf Getreidefeldern könne überwacht werden und damit die Höhe der Erntemengen.

Werden solche Daten zusammengefasst, dürften sie ein ziemlich genaues Barometer der Wirtschaftskraft eines Landes darstellen – in Echtzeit. Wirtschaftskrisen erkennen, Lieferengpässe vorhersagen? Kein Problem. Noch dazu gibt es kaum einen Weg, solche Informationen flächendeckend zu verschleiern. Für Börsenhändler, Finanzberater, Investmentbanken sind solche Daten besser als Gold. Kein Wunder also, dass Skybox viel Kapital sammeln konnte und dass es bereits eine zweite Firma gibt, die das gleiche anbieten will.

Planet Labs hat sogar schon zwei Satelliten gestartet und will insgesamt 28 ins All bringen.

Zusammen mit Drohnen, die ebenfalls immer leichter verfügbar werden, liefern fliegende Kameras völlig neue Einblicke in die Welt. “Big Data. From space“, lautet denn auch einer der Werbesätze von Skybox. Das kann zum Schlechten genutzt werden, zur Überwachung von Bürgern, aber auch zum Guten, um Warenkreisläufe zu verstehen und Probleme vorherzusagen.

Via Wired und @lorz.

Wenn die Temperatur sinkt, steigt der (Porno)-Traffic

Von 13. Januar 2014 um 15:30 Uhr

Pornografie ist im Internet der “elefant in the room”, wie man im Englischen sagt: riesig und unübersehbar, trotzdem redet kaum jemand über ihn. Auch, weil es kaum Daten gibt, die etwas darüber aussagen, wie riesig der Elefant wirklich ist.

Dabei sind solche Daten nicht uninteressant, wenn es sie denn mal gibt. Schließlich galt die Pornobranche lange Zeit als wichtiger technischer Vorreiter im Netz, auch wenn sie in dieser Rolle inzwischen von Sozialen Netzwerken abgelöst wurde. Der Anbieter Pornhub bietet solche Zahlen. Seit Sommer 2013 betreibt er ein Blog namens Insights, auf dem unter anderem Statistiken veröffentlicht werden.

Eine davon zeigt, wie die Amerikaner auf die jüngste Kältewelle reagiert haben: Sie haben mehr Pornos geguckt. In Maine, Michigan und Florida zum Beispiel waren es rund 40 Prozent mehr als sonst im Januar.

Nicht immer und überall bringt der Winter einen erhöhten Pornokonsum mit sich: Japan ist die einzige Region, in der das Weihnachtsfest keine Auswirkung hat (Siehe unter Holidays, Christmas Eve). Und Silvester muss einer der schlechtesten Tage für die Branche sein, da interessiert sich offensichtlich kaum jemand für sie.

Eine andere Statistik zeigt, wie verbreitet die mobile Internetnutzung in welchen Ländern ist: Deutschland ist demnach noch immer Desktop-Land. Nur sieben Prozent nutzen Tablets, nur 21 Prozent Smartphones (bei ihrem Pornokonsum). International ist das wenig, in den USA oder Großbritannien ist die mobile Nutzung bereits sehr viel verbreiteter.

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Noch also haben deutsche Unternehmen etwas Zeit, sich auf mobile Geräte einzustellen. Allerdings nicht sehr viel. Die Desktop-Nutzung ist in Deutschland von 2012 auf 2013 um zehn Prozentpunkte gefallen.

Weltweit gilt: Montag ist Pornotag, dann hat Pornhub die höchsten Zugriffe, an Sonntagen die geringsten. Offenbar wird genau das dann am Montag nachgeholt.

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Auch die Frage, ob in ärmeren oder in reicheren Gegenden länger Pornos konsumiert werden, kann das Portal beantworten. Es sind vor allem die Bewohner ärmerer Städte, die länger schauen.

PornHub gehört wie Youporn und viele andere Netzangebote zu dem Firmengeflecht von Mindgeek, einem Unternehmen mit Sitz in Luxemburg, das bis 2013 Manwin hieß. Und selbstverständlich ist das Veröffentlichen solcher Trafficdaten auch eine Form von Marketing, wie das amerikanische Magazin Slate anmerkt.

 

Kategorien: Datenquelle

Die Kolonialmächte des Internets

Von 8. November 2013 um 10:22 Uhr
Zahl der Internetnutzer weltweit. Die Ländergrößen werden proportional dazu dargestellt. Die Farben zeigen die "Durchdringung" der Netznutzung pro Land, also wie viel Prozent der Bewohner im Internet sind.

Zahl der Internetnutzer weltweit. Die Ländergrößen werden proportional dazu dargestellt. Die Farben zeigen die “Durchdringung” der Netznutzung pro Land, also wie viel Prozent der Bewohner im Internet sind.

Die Welt des Internets ist zweigeteilt. Es gibt die Sphäre der Nutzer und die Sphäre der Domaininhaber, also jener, die das Netz mit Inhalten füllen. Das Verhältnis der beiden ist ungleich verteilt, wie Karten zeigen, die das Oxford Internet Institute (OII) veröffentlicht hat.

Die Mehrheit der Domains im Netz ist in Nordamerika und in Europa registriert – fast ein Drittel aller Websites weltweit gehört Menschen und Organisationen in den USA, schreiben Mark Graham und Stefano De Sabbata vom OII.

Die Mehrheit der Internetnutzer hingegen lebt in China, das Land stellt die größte Internetpopulation der Welt. Gleichzeitig sind dort nur wenige Domains zu Hause.

Die Wissenschaftler nutzen als Vergleich den Wert User pro Domain, der sich ergibt, wenn man die Zahl der Nutzer eines Landes mit der Zahl der Domains dort ins Verhältnis setzt.

Weltweite Verteilung der Zahl registrierter Domains pro Land

Weltweite Verteilung der Zahl registrierter Domains pro Land

Weltweit errechneten sie den Durchschnitt von zehn Nutzern pro Domain. In den USA liegt dieser Wert bei drei. In China hingegen sind es pro Domain 40 Nutzer. Dort seien weniger Websites registriert als beispielsweise in Großbritannien.

Dieses Missverhältnis zeigt sich überall: Die Inhalte werden von Amerikanern und Europäern dominiert, der Rest der Welt schaut zu. Italien und Vietnam zum Beispiel haben nahezu die gleiche Zahl an “Netzbewohnern”, aber in Italien sind sieben Mal so viele Websites registriert wie in Vietnam.

Das beobachteten sie sogar in Japan. Dort leben zwei Mal so viele Netznutzer wie in Großbritannien, es sind dort aber nur ein Drittel so viele Websites registriert wie im Königreich.

Insgesamt sind 78 Prozent aller Domainnamen in Nordamerika oder Europa beheimatet. Asien kommt noch auf 13 Prozent der Domains, in Lateinamerika, Ozeanien und Afrika sind es jeweils weniger als fünf Prozent. Und so gibt es in Afrika mehr als 50 Nutzer pro Domain – viele Konsumenten, kaum Produzenten also.

Insgesamt leben inzwischen 42 Prozent aller Netznutzer in Asien. Und dort ist auch noch viel Wachstum möglich, da gleichzeitig die Durchdringung in Ländern wie Indien und China gering ist, also nur vergleichsweise wenige Bewohner des Landes auch im Netz sind.

Es gebe, schreiben Graham und De Sabbata, eine starke Korrelation zwischen dem Pro-Kopf-Bruttoeinkommen eines Landes (Gross National Income per capita) und der Zahl der Domains. Das Netz hat die Möglichkeit, Inhalte zu verbreiten, stark vereinfacht. Geld kostet das aber noch immer. Und so ergibt sich im Verhältnis von Produzenten und Konsumenten eine fast koloniale Struktur.

Zur Berechnung verwendeten die Wissenschaftler Zahlen aus dem Jahr 2013, die von Matthew Zook von der University of Kentucky zur Verfügung gestellt wurden.

Um das Ergebnis nicht zu verfälschen, wurden Domains von Ländern wie Tuvalu, Armenien oder Tokelau nicht berücksichtigt. Sie gehören zu denen, die weltweit gern registriert werden, weil ihre Domainendung so beliebt ist, oder weil die Registrierung nichts kostet. Domains mit .tv, .am oder .fm werden beispielsweise gern von Medienunternehmen aus aller Welt gebucht, .re von Réunion ist beliebt bei Immobilienmaklern, da es die englische Abkürzung für real estate ist.

Kategorien: Datenvisualisierung