Kai Biermann, Autor bei Data Blog

4. Juni 2012 um 17:18 Uhr

Wie Inhaftierung aus der Luft aussieht

knast — Luftbilder von Gefängnissen in den USA Quelle: http://www.prisonmap.com / Screenshot ZEIT ONLINE

Auch das sind Daten. Und was für welche.

Auf der Seite Prisonmap werden Luftbilder von amerikanischen Gefängnissen gesammelt. Zwei Dinge fallen dabei sofort auf: Es sind viele. Und es gibt offensichtlich Bundesstaaten und/oder Konzerne, die immer denselben Typ Gefängnis bauen.

Erfinder Josh Begley will damit visualisieren, dass die USA das Land auf der Welt mit den meisten Gefängnissen sind.

Aufgrund der enormen Menge an Gefängnissen sind auf der Seite nur die 700 besten Fotos zu sehen. Die komplette Datenbank mit fast 5.000 „correctional facilities“, ein Euphemismus für Haftanstalt, findet sich hier.

Als Basis für seine Bildersuche diente Begley eine Datenbank mit den Geokoordinaten amerikanischer Gefängnisse. Die hat die Prison Policy Initiative zusammengestellt, die versucht, die Wirkung massenhafter Gefängnisstrafen auf die Gesellschaft zu thematisieren.

Via @venohr

30. Mai 2012 um 17:35 Uhr

Wo das deutsche Internet wohnt

Gesamtzahl der Domainanmeldungen in Deutschland 2011 Quelle: denic

Die Zahl der .de-Domains, die jedes Jahr registriert werden, sinkt. Seit mehreren Jahren schon veröffentlicht die zentrale Registrierungsstelle Denic, wo in Deutschland wie viele Domains angemeldet sind. Die Zahlen für 2011 sind nun verfügbar.

Hier ein paar davon: Am 31. Dezember 2011 gab es demnach in Deutschland 13,8 Millionen Domains. Inzwischen sind es allerdings bereits mehr als 15 Millionen. Damit ist die Adresse .de die am häufigsten vergebene Länderadresse der Welt und die zweithäufigste überhaupt. Übertroffen wird sie nur von .com-Domains. Allerdings holt die Endung .net auf und liegt kurz hinter .de auf Platz drei.

Konkurrenz social media

Das klingt alles nach viel, jedoch wird die Zahl der Neuanmeldungen kleiner. Zu Zeiten der dotcom-Blase waren es mehr als zwei Millionen im Jahr. Derzeit sind es noch um die 700.000. Das hat zwei Gründe. Zum einen wird der Namensraum knapper. Angesichts der vielen Domains fällt es schwer, sich noch aussagekräftige neue einfallen zu lassen. Zum anderen konkurriert die Denic inzwischen mit sozialen Netzwerken. Noch vor ein paar Jahren habe jeder Privatmann eine eigene Website haben wollen, sagt Sprecherin Stefanie Welters. Inzwischen genüge vielen ein Account, beispielsweise bei Facebook.

Noch ein paar Zahlen: Wie jedes Jahr seit 1998 (bis dahin war es München) führt Berlin die Liste der Orte an, in denen absolut die meisten Domains registriert sind: 840.324. Angesichts der hohen Einwohnerzahl kein Wunder. Danach folgen München (609.152) und Hamburg (556.460).

Wird die Einwohnerzahl berücksichtigt, sieht das Bild etwas anders aus. Dann führt bei den kreisfreien Städten Osnabrück mit 749 .de-Domains pro 1.000 Einwohner. Platz zwei ist dann wieder München, Platz drei allerdings Bonn. Bei den Landkreisen fällt Amberg-Sulzbach in Bayern auf. Schon im vergangenen Jahr waren dort die meisten Domains pro Einwohner registriert, damals 715 pro 1.000 Einwohner. In diesem Jahr sind es nun gar 882 pro 1.000 Menschen und damit wieder Platz eins.

Domainhändler

Was aber nicht bedeutet, dass dort besonders viele Menschen ins Netz wollen. Es spricht eher dafür, dass irgendwo in dem Landkreis ein Domainhändler seinen Sitz hat. Das kann die Denic-Sprecherin zwar nicht bestätigen, hält es aber für wahrscheinlich. Sicher ist sie sich dagegen, dass in Osnabrück ein großer Händler sitzt. Trotz solcher Ausreißer hat Deutschland einen „hohen Anteil von Privatnutzern im Vergleich zu anderen Ländern“, wie Welters sagt.

Erkennen lässt sich in den Daten auch, welche Regionen „aufwachen“ und nun verstärkt ins Netz gehen. Coburg beispielsweise. Die Stadt liegt bei Neuanmeldungen weit über dem Bundesdurchschnitt, scheint also im Aufschwung begriffen. Genau wie Ansbach und Memmingen. Vielleicht ist aber auch nur ein Domainhändler dorthin umgezogen. Sachsen-Anhalt hingegen schläft noch immer zuverlässig und belegt bei den Bundesländern wieder den letzten Platz.

Wer mit den Daten von 2011 herumspielen will, hier sind sie als Excel-Tabelle.

30. Mai 2012 um 16:00 Uhr

ProPublica recherchiert via Crowdsourcing

Viele Studenten in den USA beginnen nach dem Uniabschluss ihr Berufsleben mit Schulden, weil sie die Unigebühren über Kredite finanziert haben. Dramatisch daran: Viele wissen nicht einmal, wie hoch ihre Schulden genau sind, da das System so komplex und jeder Kreditvertrag anders ist.

ProPublica, das durch eine Stiftung finanzierte Medienprojekt, will nun Daten über Unikredite sammeln, um besser über die Lage der Studenten berichten zu können. Dazu bittet ProPublica alle Studenten um Hilfe.

„Share your documents with us“, lautet der Aufruf, schick uns deinen Kreditvertrag. Im Zweifel genüge auch ein Foto, heißt es auf der Website. Alle Informationen würden anonym verarbeitet. Die Daten könnten dazu dienen, die Berichte von ProPublica viel besser machen, schreiben die Macher und verlinken auf einen Text, der nach einem ähnlichen Aufruf entstand.

Hintergrund ist eine Änderung in der Finanzierung von Studiengebühren. Bislang vergab das Bildungsministerium selbst solche Studienkredite. Vor einiger Zeit aber wurden diese aufgrund einer Gesetzesänderung an nichtkommerzielle aber private Kreditfirmen übergeben. Dabei scheint es Unregelmäßigkeiten zu geben. Um mehr darüber zu erfahren, versucht es ProPublica nun mit Crowdsourcing.

Gleichzeitig wurde eine Facebook-Gruppe gegründet, in der Erfahrungen ausgetauscht werden können und diskutiert werden kann. Auch dort dürften sich bald viele Ansätze für Recherchen finden.

23. Mai 2012 um 15:40 Uhr

Goldgrube Pharma-Daten

Visualisierung von Medikamenten-Verkaufsdaten der US-Pharmafirma Help /Quelle: http://helpineedhelp.com/whatswrongus/

Google, Facebook und Twitter sind so groß und wissen so viel, dass sie auch etwas über den Gesundheitszustand der Welt sagen können. Das zeigt: Daten können völlig neue Aussagen enthalten, wenn sie in einem neuen Zusammenhang betrachtet werden. Die Erfinder von Help Remedies zeigen das sehr anschaulich.

Help vertreibt in den USA Medikamente. Das Start-up versucht, mit Konzepten wie Transparenz, Design und gutem Gewissen Tabletten zu verkaufen. Auf ihrer Website wirbt die Firma mit Schlagworten wie „less greed“, „less dyes“ oder „less confusion“. Die Macher wollen also nicht so gierig sein wie andere und spenden fünf Prozent der Einnahmen, sie wollen keine bunten aber nutzlosen Farbstoffe in ihren Pillen einsetzen und sie wollen klarer sagen, was ein Medikament tut. Daher haben Schlaftabletten auch nicht irgendeinen ausgedachten Namen, sondern werden als „Help – I can’t sleep“ vermarktet, Hilfe, ich kann nicht schlafen.

Und sie hatten noch eine Idee: Die Informationen darüber, wo welche dieser Medikamente am häufigsten gekauft werden, hat Help nun anonymisiert und in einer Grafik aggregiert.

Was hast Du, USA?, fragt die Seite und will die kleinen Wehwehchen und Probleme sichtbar machen, mit denen sich die Menschen so plagen. Demnach werden die Texaner vor allem von ihren Bronchien geplagt, die Bürger in Kalifornien und Arizona von verstopften Nasen und die in Montana und Wyoming von Schlaflosigkeit. In Colorado und West-Virginia sind hingegen Blasen an den Füßen das größere Problem.

Das Ganze kommt witzig und bunt daher und ist eine geschickte Werbekampagne. Einerseits.

Andererseits stecken darin gleich zwei größere Themen. Das erste ist, wie oben bereits angerissen das Phänomen Big Data. Große Datenmengen können überraschende Aussagen enthalten, an die ursprünglich niemand dachte. Als die Google-Suche erfunden wurde, war sicher niemandem klar, dass die Daten einst taugen würden, den Gesundheitszustand der Welt zu beschreiben. Den Kunden von Help war wohl kaum klar, dass sie helfen würden, einen Krankheitsatlas der USA zu erstellen.

Und das ist das zweite große Thema: Immer mehr Unternehmen entdecken gerade den Datenschatz, auf dem sie sitzen und versuchen, ihn auszubeuten. Help ist da eher ein positives Beispiel. Schließlich sind die Daten anonymisiert, und Angaben zu Geschlechtskrankheiten oder psychischen Erkrankungen gibt es nicht.

Es gibt aber auch negative Beispiele für den Umgang mit so sensiblen Daten. Die amerikanische Apothekenkette Walgreen weiß ebenfalls sehr genau, was Kunden für Medikamente kaufen. Und verkauft diese Daten an sogenannte Data-Miner – an Firmen also, die sie auswerten und aufbereiten. Anschließend stehen die Daten gegen eine Gebühr Pharmafirmen zur Verfügung. Die können damit beispielsweise erfahren, welche Ärzte besonders viele Medikamente verschreiben und welche das sind. Was, neutral gesagt, völlig neue Möglichkeiten der Werbung eröffnet.

Das Programm nennt sich „Operational Data Share“ und bietet laut Eigenwerbung nahezu Echtzeitinformationen über verkaufte Medikamente in den Walgreens-Filialen in den USA.

Walgreen-Kunden fanden es nicht so lustig, zum Produkt gemacht zu werden. Sie haben die Firma deswegen gerade verklagt.

16. Mai 2012 um 14:26 Uhr

Facebooks Zahlen in Bildern

Der britische Guardian hat eine Animation gebaut, die versucht, Facebooks Größe und Wachstum darzustellen:

7. Mai 2012 um 13:55 Uhr

Handbuch des Datenjournalismus

data-mining — Ein Tricorder, in der Science-Fiction-Serie "Star Trek" ein Gerät, um Daten zu sammeln, Quelle: JD Hancock, CC BY 2.0 http://www.flickr.com/photos/jdhancock/3386035827/

Was ist Datenjournalismus, warum sollten Journalisten Daten nutzen und wenn sie es denn wollen, wie geht das überhaupt? Diese und viele weitere Fragen will das erste Datenjournalismus-Handbuch beantworten. Das gibt es natürlich im Netz und demnächst auch als gedruckte Version.

Das Buch soll einen Überblick über das Thema geben, nicht eine dezidierte Anleitung sein, wie man Datenjournalist wird. Zu Letzterem, heißt es im Vorwort, bräuchte es sehr viel mehr Wissen und Instrumente. Glücklicherweise existiere aber eine ganze Bibliothek mit den Dingen, die ein Datenjournalist brauche: „Luckily this library exists and it is called the internet.“

Ein Überblick also. Der erste Teil beschäftigt sich ganz allgemein mit dem Thema und stellt mehrere erfolgreiche Projekte vor. In kurzen Texten beschreiben Datenjournalisten von der BBC, der Chicago Tribune, vom Guardian und von anderen Medien, warum sie mit Daten arbeiten und was sie davon haben. Anschließend werden einzelne Projekte genauer beleuchtet.

Interessanter wird es im nächsten Teil. Dort geht es darum, wie man überhaupt an Daten gelangt. Beispielsweise durch „wobbing“, also durch Anfragen nach dem Informationsfreiheitsgesetz. Die sind mühsam, aber lohnend. Genauso wie jene Daten, die längst zugänglich sind und nur noch über entsprechende Schnittstellen (API) ausgelesen werden müssen.

Ich hatte hier vor einiger Zeit die These vertreten, dass APIs für Journalisten bald einer der wichtigsten Wege sein werden, um an spannende Geschichten zu kommen. Der Abschnitt des Buches bestätigt mich in dem Glauben.

Tipps aus der Praxis

Beschrieben wird aber auch das „scraping“, also das „Herunterkratzen“ von Daten von einer Website mithilfe spezieller Software. Das folgt der Idee, dass man ja nichts per Hand abschreiben muss, was schon digital vorliegt. Ganz so trivial ist es aber nicht. Scraping braucht ein paar Kenntnisse über die Struktur von Websites. Friedrich Lindenberg von der Open Knowledge Foundation gibt hilfreiche Beispiele und Links. Allerdings ist scraping nicht immer legal, worauf in dem Kapitel leider nur kurz eingegangen wird.

„Crowdsourcing“ wird selbstverständlich ebenfalls behandelt – also die Bitte an Leser und Nutzer, Daten zu sammeln. Dazu gibt es Tipps, wie solche Vorhaben gelingen. Ein Zitat dazu vom Guardian: „If I were to give advice to aspiring data journalists who want to use crowdsourcing to collecting data, I would encourage them do this on something that people really care about, and will continue to care about when it stops making front page headlines.“

Die letzten beiden Kapitel beschäftigen sich schließlich damit, die gefundenen Daten zu verstehen und sie dann so aufzubereiten, dass auch andere sie verstehen.

Grundsätzlich gibt es viele praktische Hinweise von denen, die es bereits ausprobiert haben. Insofern ist das Handbuch auch eine Art Zwischenbericht zum Zustand des Datenjournalismus in Europa und Nordamerika. Und das Beste daran: Es kostet nichts.

Entstanden ist das Buch bei einem Workshop im November 2011 beim Mozilla Festival in London. Die Idee dazu hatten das European Journalism Centre und die Open Knowledge Foundation.

Disclaimer: ZEIT ONLINE hat an dem Handbuch mitgearbeitet und stellt darin einige eigene Projekte vor. Und da wir gerade bei der Eigenwerbung sind: Alle datenjournalistischen Projekte von ZEIT ONLINE finden sich hier gesammelt.

27. April 2012 um 15:35 Uhr

Preis für Datenjournalisten

Zum ersten Mal werden demnächst die internationalen Data-Journalism-Awards vergeben. Das vergleichsweise neue Thema Datenjournalismus soll damit gewürdigt und bekannter gemacht werden. Der Preis wurde vom Global Editors Network (GEN) initiiert und wird gemeinsam mit dem European Journalism Centre vergeben. Zu den Sponsoren gehört Google.

Die Data Journalism Awards sollen künftig jährlich in drei Kategorien verliehen werden: Data-driven investigative journalism, Data visualisation & storytelling, Data-driven applications. Dabei werden zwei erste Preise vergeben. Einer ist für nationale und internationale Medien gedacht und einer für regionale oder lokale Anbieter. Beide Sieger erhalten jeweils 10.000 Dollar Preisgeld. Die Preisverleihung ist am 31. Mai in Paris.

Hier ist die Shortlist der Nominierten als Google Spreadsheet.

Darunter sind auch zwei Arbeiten aus Deutschland, eine Grafik von der Berliner Morgenpost über das Berliner Abgeordnetenhaus und eine App der Universität Kobblenz. Die analysiert Webangebote in der Umgebung von San Diego, um Helfer bei Einsätzen dort mit nützlichen Fakten zu versorgen.

Die meisten Vorschläge kommen aus Großbritannien und den USA, doch sind auch Projekte aus Uganda, der Ukraine und Afghanistan dabei.

Mehr dazu hier und hier im britischen Guardian.

Offenlegung: Wolfgang Blau, Chefredakteur von ZEIT ONLINE, ist Mitglied der Jury.

18. April 2012 um 10:03 Uhr

Luftbild-Karten selbstgemacht

Balloon-Mapping, die Grundausrüstung / Quelle: http://publiclaboratory.org/wiki/balloon-mapping-materials (CC BY-NC-SA 2.0)

Monopole nützen wenigen, Technik und Daten, die jedem zugänglich sind, nützen vielen. Ein Beispiel dafür sind Bilder der Erde. Früher konnten sich nur Geheimdienste großer Staaten Satelliten- und Luftaufnahmen leisten, dann große Firmen, dann kam Google und machte sie der Welt zugänglich. Mit dem Ergebnis, dass inzwischen unzählige Angebote diese Bilder nutzen.

Der nächste Schritt dieser Demokratisierung ist, auch die Herstellung solcher Bilder für jeden möglich zu machen. Dieser Idee hat sich eine Bewegung namens Grassroots-Mapping verschrieben. Die Fans basteln Ballons, um Kameras in den Himmel steigen zu lassen und so Bilder zu sammeln.

infrarot — Infrarot-Aufnahme des Gowanus-Kanals in New York. Freiwillige beobachten mit von Ballons gemachten Fotos, ob Abwässer eingeleitet werden / Quelle: http://mapknitter.org/map/view/2011-7-31-brooklyn-gowanus-ir (Public Domain)

Denn Googles Ergebnisse sind zwar für jeden kostenlos sichtbar, die Rohdaten aber nicht. Denn sie gehören noch immer einem Konzern – bilden also weiterhin ein Monopol. Weswegen Google auch durchaus darüber nachdenkt, Geld für seine Karten zu nehmen. Das störte auch schon bei den im Internet verfügbaren Straßenkarten viele, weswegen erfolgreiche Projekte wie Open Street Map entstanden und Nutzer die Daten selbst sammelten.

Das Public Laboratory for Open Technology and Science hat nun ein Balloon Mapping Kit zusammengestellt, mit dem jeder für wenig Geld Luftbilder erstellen und zu Karten bauen kann. Angeboten wird der Bausatz für 85 Dollar, es fehlen dann noch eine Kamera und Helium für den Ballon. Die Karten-Software namens Map Knitter ist kostenlos.

Auf der Seite des Public Laboratory gibt es viele Bauanleitungen und Tipps für solche Projekte. Beispielsweise das Soda-Bottle-Rig. Der Halterahmen, gebaut aus PET-Flaschen und Gummis schützt die Kamera bei Stürzen und verringert ihr Schlingern in der Luft.

Wozu das Ganze? Nun, beispielsweise um sich einen Überblick über eine Ölpest zu verschaffen. Oder um das Ausmaß von Demonstrationen wie Occupy zu dokumentieren. Oder, oder.

Übrigens, wer kein Helium auftreiben kann, das funktioniert natürlich auch mit Drachen.

Für viele sinnvoll werden die Daten allerdings nur, wenn sie auch irgendwo gesammelt werden. Daher hat das Public Laboratory dafür eine Datenbank aufgesetzt. Fehlt eigentlich nur noch eine Plattform, die Luftbilder aus aller Welt sammelt und zu einer Weltkarte baut.

Via Google Lat Long

16. April 2012 um 14:45 Uhr

„Guardian“ will Cookie-Daten sammeln

Bildschirmfoto 2012-04-16 um 14.38.24 — Firefox-Add-on "Collusion" von Mozilla, das Cookies auswertet und verfolgt / Screenshot ZEIT ONLINE

Wer an Daten kommen will, kann diese in bestehenden Datenbanken suchen. Oder er kann sie selber sammeln.

Die britische Zeitung Guardian hat gemeinsam mit der Mozilla-Foundation ein Projekt gestartet, um zu untersuchen, was Cookies im Internet so alles ausforschen. Tracking the Trackers ist der Titel, was so viel heißt, wie die Verfolger zu verfolgen.

Cookies und andere Werkzeuge überwachen viele Handlungen im Netz und beobachten, was Nutzer sehen und tun. Die Zeitung möchte mit ihrem Projekt herausfinden, wer die Entwickler dieser Cookies sind und wer die Nutznießer der von ihnen gesammelten Daten. Dazu aber braucht man erst einmal die Daten.

Noch sind keine Ergebnisse zu sehen, denn die dafür notwendigen Informationen wirbt der Guardian derzeit erst bei seinen Lesern ein. Die werden gebeten, bei Mozilla ein Zusatzprogramm für den Browser Firefox herunterzuladen. Das Add-on namens Collusion beobachtet dann die Cookies, die sich ein Nutzer einfängt. Das sind viele. Wie viele, hat beispielsweise Astrid Herbold gerade für ZEIT ONLINE aufgeschrieben.

Der Guardian nun bittet seine Nutzer, die gesammelten Daten anschließend zu spenden. Schon die Bewegungen eines normalen Surf-Tages genügten dafür.

Mit dem Projekt wolle man besser verstehen, wer die Giganten in dem Geschäft sind. Anschließend werde man diese, wenn sie denn identifiziert sind, zurückverfolgen. „Wir werden herausfinden, welche Daten sie sammeln und warum“, schreibt die Zeitung.

Die genaue Anleitung für die Installation von Collusion und für den Export der Daten gibt es hier.

Das Prinzip heißt Crowdsourcing: die Nutzung des Wissens der Masse. Mozilla selbst plant das auch. Noch ist Collusion im Experimentierstatus. In der endgültigen Version soll es die Möglichkeit geben, seine Daten anonym zu spenden, sodass eine weltweite Datenbank des Webtrackings entstehe, heißt es auf der Mozilla-Seite.

Diese Art der Mitarbeit kann spannende Ergebnisse liefern. So hat der Programmierer Michael Kreil von einiger Zeit darum gebeten, ihm die Lokalisierungsdaten zu spenden, die iPhones bis dahin gesammelt hatten. Mit diesen baute er mehrere Filme, auf denen die Bewegungen von iPhone-Besitzern vor allem in Deutschland zu sehen waren.

Das Wall Street Journal hatte vor einiger Zeit ein ähnliches Projekt gestartet. Auch What They Know will zeigen, was Onlinemarketingfirmen über Nutzer wissen. Das Ergebnis war vor allem eine spannende Grafik. Die Daten dazu wurden allerdings nicht von vielen Menschen gesammelt, sondern von einem Analysten, der sich einzelne Websites ansah.

Der Ansatz des Guardian verspricht da mehr Überraschung, da er ohne konkretes Ziel erst einmal alle Daten sammelt und dann schaut, was sich darin findet.

4. April 2012 um 17:10 Uhr

Tirol öffnet seine Regierung (ein bisschen)

Open Government Data heißt, dass Daten, die sowieso in der öffentlichen Verwaltung anfallen, Jedermann zur Verfügung gestellt werden. Nicht wenige Länder, Städte und Gemeinden begreifen das als Chance, sich ihren Bürgern zu öffnen und davon noch zu profitieren. Die Tatsache, dass das kleine österreichische Bundesland Tirol nun ein eigenes Datenportal eröffnet hat, kann daher durchaus als Beleg für einen Trend gelten.

Seit dem 2. April gibt es die Tiroler Open-Data-Seite. Viele Daten sind noch nicht darauf, aber es ist ein Anfang. Vor allem aufgrund der Erkenntnis, die dahinter steht. Zitat von der Website: „Das Land Tirol hat sich genau mit den Schwierigkeiten und Herausforderungen der Öffnung des bestehenden Datenfundus auseinandergesetzt und die Potenziale offener und standardisiert verknüpfbarer Daten erkannt. Nicht zuletzt tragen frei zugängliche Daten dazu bei, die öffentliche Verwaltung transparenter zu machen.“

Was für Daten gibt es also? Bislang sind es vor allem geografische Informationen. Insgesamt zwölf Datensätze über die Lage von Seen, Flüssen und Schutzgebieten in Tirol sowie einer mit den Mountainbike-Routen im Bundesland.

Wie gesagt, ein Anfang. Oder, wie es der zuständige Landrat formuliert, ein „Pilotversuch“.

Allzu spannende Projekte werden sich aus den wenigen Datensätzen nicht entwickeln lassen. Trotzdem ist es lobenswert, damit überhaupt zu beginnen.

Empfohlener redaktioneller Inhalt