Offene Daten – offene Gesellschaft

Autoren Archiv von Kai Biermann

Keim bleibt geheim

Von 22. November 2014 um 09:00 Uhr

Von Haluka Maier-Borst

Resistente Keime wie MRSA und VRE sind in deutschen Kliniken ein großes Problem. Bis zu 15.000 Menschen sterben schätzungsweise jedes Jahr an einer Infektion mit einem solchen Erreger. Das sind viereinhalb Mal so viele, wie bei Verkehrsunfällen umkommen.

Weiter…

Kategorien: Datenjournalismus

Rostige Brücken, unverständliche Daten

Von 2. September 2014 um 12:14 Uhr
Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Darstellung der Geodaten einer Bahnbrücke auf der Strecke 4111 im Portal von Geo++. Quelle: http://db.geopp.de/gnrailnav_servlet/GNOpenLayersV3

Woher stammen die Daten für unsere Karte über den Zustand deutscher Bahnbrücken? Ursprung ist ein Datensatz der Deutschen Bahn, genauer: 16 Datensätze. Die Grünen hatten im Bundestag in kleinen Anfragen wissen wollen, in welchem Zustand die deutschen Bahnbrücken sind. Sie stellten für jedes Bundesland eine entsprechende Anfrage.

Weiter…

Kategorien: Datenjournalismus

Festgenommene in Ferguson

Von 22. August 2014 um 16:11 Uhr
Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Festnahmen bei Protesten in Ferguson nach Ort der Festnahme Quelle: http://www.washingtonpost.com/wp-srv/special/national/ferguson-arrests/

Wer wurde bei den Protesten in Ferguson in den USA warum festgenommen? Die Washington Post präsentiert hier die Zahlen. Häufigster Grund: "refusal to disperse", also die Weigerung, sich zu zerstreuen, auseinander zu gehen.

Weiter…

Kategorien: Datenjournalismus

Nicholas Feltons Leben als Datenquelle

Von 21. August 2014 um 16:20 Uhr
Nicholas Feltons Kontaktnetzwerk Quelle: http://feltron.com/FAR13.html

Nicholas Feltons Kontaktnetzwerk Quelle: http://feltron.com/FAR13.html

Jedes Jahr präsentiert Nicholas Felton sein Leben. In Grafiken und Charts zeigt er allen, die es interessiert, womit er seine Zeit verbrachte, was er aß, wie er schlief, wo er sich herumtrieb.

Weiter…

Racial Profiling in St. Louis

Von 14. August 2014 um 15:16 Uhr
Karte von St. Louis, die Farben zeigen die Ethnie der Bewohner, Weiße in blau, Schwarze in grün. Der eingekreiste Bezirk Ferguson wird von beiden bewohnt. Quelle: US-Zensusdaten, Racial Dot Map

Karte von St. Louis, die Farben zeigen die Ethnie der Bewohner, Weiße in blau, Schwarze in grün. Der eingekreiste Bezirk Ferguson wird von beiden bewohnt. Quelle: US-Zensusdaten, Racial Dot Map

Im Bezirk Ferguson der Stadt St. Louis gibt es seit Tagen Unruhen, ein schwarzer Jugendlicher wurde von einem Polizisten erschossen. Der Vorwurf lautet, dass die Polizei rassistische Vorurteile hegt. In dem Bezirk leben Schwarze und Weiße nebeneinander – ganz im Gegensatz zu den meisten anderen Vierteln der Stadt. Doch werden beide Bevölkerungsgruppen von der Polizei nicht gleich behandelt. Das zeigen Daten des Generalstaatsanwalts des Bundesstaates Missouri, in dem St. Louis liegt.

Weiter…

Kategorien: Datenvisualisierung

Personalisierte Propaganda

Von 8. August 2014 um 14:22 Uhr
Gilad Lotans Analyse von Twitter-Accounts zum Thema Gaza-Konflikt. Proisraelische Twitterer (hellblau), propalästinensische Twitterer (grün) und internationale Medien (grau). Quelle: Medium

Gilad Lotans Analyse von Twitter-Accounts zum Thema Gaza-Konflikt. Proisraelische Twitterer (hellblau), propalästinensische Twitterer (grün) und internationale Medien (grau). Quelle: Medium

In Konflikten wie dem in Gaza geht die Meinung darüber, was bei den Kämpfen passiert, weit auseinander. Beide Seiten beschuldigen sich immer wieder der Desinformation und beide werfen Medien vor, parteiisch zu sein. Ursache dafür ist ein Phänomen, das Eli Pariser die Filter-Blase genannt hat – beide Seiten informieren sich aus unterschiedlichen Quellen und es gibt kaum Informationslieferanten, die von allen genutzt werden.

Weiter…

Kategorien: Datenprojekt

Adressen der Berliner Arztpraxen sind ein Geheimnis

Von 7. April 2014 um 09:42 Uhr

Die Adressen aller Arztpraxen in vier Städten zu besorgen, wie kompliziert kann das schon sein? Immerhin stehen sie in jedem Telefonbuch. In Hamburg, Köln und München war es auch kein Problem, für unser Projekt zur Praxisdichte von den zuständigen Stellen eine Liste aller Ärzte der jeweiligen Stadt zu erhalten. Es genügten einige Telefonate, dann schickten die Kassenärztlichen Vereinigungen ein entsprechendes Excel-Dokument per E-Mail.

Nur in Berlin weigerten sich Ärztekammer und Kassenärztliche Vereinigung (KV) standhaft, die Adressen der niedergelassenen Ärzte herauszugeben. Beide berufen sich auf den Datenschutz. Von der Ärztekammer heißt es zusätzlich am Telefon, die Presse bekäme solche Daten “schon mal gar nicht”.

Wir stellten daher am 4. März an Ärztekammer und Kassenärztliche Vereinigung einen Antrag nach dem Berliner Informationsfreiheitsgesetz und baten darum, uns die Daten in digitaler Form zu übermitteln.

Von der Ärztekammer hörten wir erst einmal gar nichts. Nach zwei Wochen fragten wir nach, was aus unserer Anfrage wurde, eine weitere Woche später kam die erste Reaktion. Von Datenschutz ist nun nicht mehr die Rede. Man sei nicht zuständig sondern allein die KV, heißt es in der E-Mail. Im Übrigen weise man darauf hin, “dass die von Ihnen erwünschte Information auf der Homepage der Kassenärztlichen Vereinigung Berlin verfügbar ist (Arztsuche der KVB)”.

Angesichts der erklärten Open-Data-Strategie Berlins ist das ein befremdliches Verhalten. Ja, die Daten werden sowohl als kostenpflichtiges Buch "Der Arzt – Handbuch des Berliner Gesundheitswesens" als auch als öffentliche Suche der KV und unter Ärzte-Berlin als Suche angeboten. Warum also nicht einfach ein Excel-Dokument verschicken, oder die Daten gleich für alle zum Download anbieten, wenn sie doch offensichtlich elektronisch vorliegen? Schließlich bedeutet Open Data auch, Daten zur weiteren Verarbeitung bereit zu stellen.

Vielleicht weiß die KV mehr? Die Kassenärztliche Vereinigung meldet sich immerhin eine Woche nach unserer Anfrage per Brief. Der Datenschutzbeauftragte der KV schreibt: “Für eine derartige Datenübermittlung von Informationen, die dem Sozialdatenschutz unterliegen, besteht keine Rechtsgrundlage und somit keine Übermittlungsbefugnis.”

Das Argument ist absurd. Die Daten haben keine datenschutzrechtliche Relevanz. Nicht einmal die Namen der Ärzte werden genannt. Es geht um die Adressen der Arztpraxen – also um eine durchaus wichtige Information für jeden Bürger, der sich krank fühlt.

Das sieht auch der Berliner Datenschutzbeauftragte so. Seine Sprecherin sagt, sie wisse nicht, was aus Sicht des Datenschutzes gegen eine Veröffentlichung sprechen solle.

Noch dazu, da diese Daten als Buch angeboten werden. Womit der Eindruck entstehen könnte, die Daten würden nur deshalb zurückgehalten, um das Geschäftsmodell des Verlages zu schützen. Der verlangt für jedes gedruckte Exemplar der Ärzteliste 53,50 Euro.

Nebenbei: Nach dem Berliner IFG Paragraf 4 Absatz 2 darf eine öffentliche Stelle keinen Vertrag mit einem privaten Anbieter schließen, der dem IFG entgegen steht. Die Daten können zwar verkauft werden, sie dürfen dadurch aber nicht für die Öffentlichkeit unzugänglich werden. So soll verhindert werden, dass Verwaltungen Geschäftsmodelle von Unternehmen schützen.

Aber auch die Berliner Senatsverwaltung für Gesundheit hat keine Handhabe gegen die Ärztevertreter. Man könne daran leider nichts ändern, lautet ihre Antwort. Zumindest lässt man im Senat durchblicken, dass man über das Verhalten nicht erfreut sei.

Die Geschichte hat leider kein happy end. Auch nach einem Monat haben sich die Berliner Ärztevertreter nicht bewegt. Der Berliner Beauftragte für Datenschutz und Informationsfreiheit prüft die Ablehnung unserer IFG-Anfrage. Ausgang unklar.

Wir haben die Berliner Praxisdaten letztlich gescrapt, also mit einem Programm automatisch aus der Website der Arztsuche ausgelesen. Genauso wie die Daten der Berliner Zahnärzte – deren Vertreter wollten uns zwar auch nichts schicken, meinten aber immerhin, sie hätten nichts dagegen, wenn wir die Datenbank selbst auslesen würden.

Damit andere das nicht wieder tun müssen, wenn sie eine Idee haben, wie sich diese Informationen noch sinnvoll einsetzen lassen, stellen wir sie hier in einem öffentlichen Googledoc zum Download bereit.

Kategorien: Datenjournalismus

Neues Wissen aus alten (Telefonbuch-)Daten

Von 21. März 2014 um 09:36 Uhr
Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Daten verbrauchen sich nicht. Mit neuen Fragen lassen sich auch aus alten Daten immer wieder neue Erkenntnisse gewinnen. Patrick Stotz und Achim Tack liefern dafür mit ihrem Projekt Mappable ein Beispiel.

Sie haben alte Telefonbücher aus den Jahren 2004 bis 2012 gekauft und die Daten aus Berlin genutzt, um darin nach Menschen zu suchen, deren Adresse sich im Laufe der Zeit geändert hat. 50.000 haben sie eindeutig identifizieren können, schreiben sie in ihrem Blog zu dem Projekt. Die Umzüge dieser 50.000 innerhalb der Stadt haben sie anschließend auf einer Karte visualisiert. Die Karte zeigt nun, wohin die Menschen in Berlin ziehen.

Das erzählt einiges darüber, wie die Stadt funktioniert.

Demnach ziehen aus den Bezirken Kreuzberg und Neukölln die meisten Menschen weg. Beide sind auf der Karte tiefblau, was für eine hohe Netto-Abwanderung spricht. Gleichzeitig schrumpft die Bevölkerung dort jedoch nicht und aus Berlin selbst ziehen wenige Menschen dorthin. Was bedeutet, dass beide so etwas wie ein Hafen für Einwanderer sind. Offensichtlich ziehen viele, die nach Berlin kommen, erst einmal dorthin. Kreuzberg und Neukölln gelten als spannend, bunt und zentral, die Mieten sind insgesamt trotzdem vergleichsweise niedrig. Entweder verdrängt der Zuzug viele der Alteingesessenen, oder die Neubewohner überlegen es sich später anders und wandern in andere Bezirke weiter.

Den größten Netto-Zuzug in Berlin hat Zehlendorf, ein reicher und ruhiger Bezirk im Südwesten. Die meisten Zuzügler kommen aus Wilmersdorf, Charlottenburg und eben aus Kreuzberg. Das würde die These des Einwanderer-Hafens stützen.

Das ist ein für viele Großstädte klassisches Muster: Junge Menschen ziehen in die Innenstadt, wenn sie für Beruf oder Studium kommen. Wenn sie älter werden, suchen sie ruhigere und auch teurere Bezirke am Rand. Mappable belegt diese Theorie. Und die Telefonbuchdaten erlauben es sogar, das genauer zu tun als die offizielle Statistik. Die kennt als kleinste Ebene nur den Stadtbezirk. Mappable bricht die Daten auch auf Ortsteile herunter und kann damit ein granulares Bild zeichnen.

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Es ist nicht das erste Mal, dass Telefonbücher als Datenquelle genutzt werden, um soziologische Aussagen zu treffen. Aber die Umzugsanalyse ist ein interessanter Ansatz. Die beiden Entwickler sind optimistisch, dass sie mit ihrer Idee eine neue Datenquelle erschlossen haben. In ihrem Blog schreiben sie:
"To sum things up: we are quite enthusiastic about the potential of phone directories as a data source and there are definitely more research questions that can be answered with these data sets besides only migration patterns (e.g. monitoring gentrification processes, identifying ethnicity patterns)."

Kategorien: Datenquelle

Big Data aus dem Weltall

Von 5. März 2014 um 12:28 Uhr
Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert. Quelle: Skybox

Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert Quelle: Skybox

Für alle zugängliche Satellitenbilder? Daran haben wir uns längst gewöhnt. Noch vor ein paar Jahren konnten sich nur Geheimdienste und Regierungen so etwas leisten, inzwischen aber gibt es sie dank Google Earth und anderen Diensten kostenlos für jeden – zumindest statische Aufnahmen der Erde aus dem All.

Nun jedoch sind Satelliten und Kameras so klein und vergleichsweise billig geworden, dass es sich für Unternehmen lohnt, sogar Livebilder aus dem Weltraum anzubieten. Nicht kostenlos, aber für jeden, der bereit ist, dafür Geld zu zahlen.

Zwei Unternehmen arbeiten derzeit daran, eine Flotte von Mikrosatelliten zu starten, um anschließend Fotos und auch Videos von jedem Punkt der Erde auf Bestellung zu verkaufen.

Skybox Imaging ist ein Unternehmen in Palo Alto, Kalifornien. Seit 2009 hat es ungefähr 100 Millionen Dollar Wagniskapital ausgegeben und Satelliten entworfen. Insgesamt 24 will man starten, der erste ist inzwischen im All. Er liefert auf Bestellung 90 Sekunden lange Videos von jedem gewünschten Ort.

Das Sichtfeld der Kamera ist zwei Kilometer mal ein Kilometer groß. Die Auflösung beträgt zwischen 90 und 110 Zentimetern und genügt, um fahrende Autos zu erkennen oder Flugzeugen beim Landen zuzusehen. Für ein Werbevideo ist die Firma beispielsweise über Nordkorea geflogen und hat eine Atomanlage gefilmt.

Looking Down From 600 km Above The Earth's Surface with HD Video from Skybox Imaging on Vimeo.

Doch das sind nicht die entscheidenden Bilder. Vielmehr machen solche Unternehmen eine neue Form der Datensammlung und Datenauswertung möglich und liefern damit neue Erkenntnisse über den Zustand der Welt und der Wirtschaft.

Natürlich können damit Umweltverschmutzung und Katastrophen genau verfolgt werden: Brandrodung beispielsweise oder Ölteppiche auf dem Meer. Aber solche Themen dürften nur ein eher unbedeutender Teil des Geschäftsmodells sein.

Skybox wirbt damit, beispielsweise den Füllstand von großen Öltanks in Häfen und Raffinerien feststellen und überwachen zu können. Diese Tanks haben ein bewegliches Dach, sind sie voll, ist das Dach weit oben, sind sie leer, ist es unten. Skybox-Kameras schätzen die Füllhöhe und ermöglichen so eine Analyse über Handelsvolumen und Reserven in Ölhäfen.

Skybox wirbt damit, den Containerumschlag in Häfen beobachten zu können und die Zahl von Autos auf einem Parkplatz. Große Firmen und große Einkaufszentren haben große Parkplätze, die Menge der Autos dort sagt etwas über die Höhe der Produktion und die Stärke der Kaufkraft. Auch das Wachstum auf Getreidefeldern könne überwacht werden und damit die Höhe der Erntemengen.

Werden solche Daten zusammengefasst, dürften sie ein ziemlich genaues Barometer der Wirtschaftskraft eines Landes darstellen – in Echtzeit. Wirtschaftskrisen erkennen, Lieferengpässe vorhersagen? Kein Problem. Noch dazu gibt es kaum einen Weg, solche Informationen flächendeckend zu verschleiern. Für Börsenhändler, Finanzberater, Investmentbanken sind solche Daten besser als Gold. Kein Wunder also, dass Skybox viel Kapital sammeln konnte und dass es bereits eine zweite Firma gibt, die das gleiche anbieten will.

Planet Labs hat sogar schon zwei Satelliten gestartet und will insgesamt 28 ins All bringen.

Zusammen mit Drohnen, die ebenfalls immer leichter verfügbar werden, liefern fliegende Kameras völlig neue Einblicke in die Welt. "Big Data. From space", lautet denn auch einer der Werbesätze von Skybox. Das kann zum Schlechten genutzt werden, zur Überwachung von Bürgern, aber auch zum Guten, um Warenkreisläufe zu verstehen und Probleme vorherzusagen.

Via Wired und @lorz.

Wenn die Temperatur sinkt, steigt der (Porno)-Traffic

Von 13. Januar 2014 um 15:30 Uhr

Pornografie ist im Internet der "elefant in the room", wie man im Englischen sagt: riesig und unübersehbar, trotzdem redet kaum jemand über ihn. Auch, weil es kaum Daten gibt, die etwas darüber aussagen, wie riesig der Elefant wirklich ist.

Dabei sind solche Daten nicht uninteressant, wenn es sie denn mal gibt. Schließlich galt die Pornobranche lange Zeit als wichtiger technischer Vorreiter im Netz, auch wenn sie in dieser Rolle inzwischen von Sozialen Netzwerken abgelöst wurde. Der Anbieter Pornhub bietet solche Zahlen. Seit Sommer 2013 betreibt er ein Blog namens Insights, auf dem unter anderem Statistiken veröffentlicht werden.

Eine davon zeigt, wie die Amerikaner auf die jüngste Kältewelle reagiert haben: Sie haben mehr Pornos geguckt. In Maine, Michigan und Florida zum Beispiel waren es rund 40 Prozent mehr als sonst im Januar.

Nicht immer und überall bringt der Winter einen erhöhten Pornokonsum mit sich: Japan ist die einzige Region, in der das Weihnachtsfest keine Auswirkung hat (Siehe unter Holidays, Christmas Eve). Und Silvester muss einer der schlechtesten Tage für die Branche sein, da interessiert sich offensichtlich kaum jemand für sie.

Eine andere Statistik zeigt, wie verbreitet die mobile Internetnutzung in welchen Ländern ist: Deutschland ist demnach noch immer Desktop-Land. Nur sieben Prozent nutzen Tablets, nur 21 Prozent Smartphones (bei ihrem Pornokonsum). International ist das wenig, in den USA oder Großbritannien ist die mobile Nutzung bereits sehr viel verbreiteter.

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Noch also haben deutsche Unternehmen etwas Zeit, sich auf mobile Geräte einzustellen. Allerdings nicht sehr viel. Die Desktop-Nutzung ist in Deutschland von 2012 auf 2013 um zehn Prozentpunkte gefallen.

Weltweit gilt: Montag ist Pornotag, dann hat Pornhub die höchsten Zugriffe, an Sonntagen die geringsten. Offenbar wird genau das dann am Montag nachgeholt.

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Auch die Frage, ob in ärmeren oder in reicheren Gegenden länger Pornos konsumiert werden, kann das Portal beantworten. Es sind vor allem die Bewohner ärmerer Städte, die länger schauen.

PornHub gehört wie Youporn und viele andere Netzangebote zu dem Firmengeflecht von Mindgeek, einem Unternehmen mit Sitz in Luxemburg, das bis 2013 Manwin hieß. Und selbstverständlich ist das Veröffentlichen solcher Trafficdaten auch eine Form von Marketing, wie das amerikanische Magazin Slate anmerkt.

 

Kategorien: Datenquelle