Data Blog

24. Mai 2012 um 11:52 Uhr

Niemand weiß, wie viele Migranten es in Deutschland gibt

migrationshintergrund 04pb blogteaser — Anteil von Migranten an der Bevölkerung in den einzelnen Bundesländern / Quelle: ZEIT ONLINE

Manchmal lösen die einfachsten Fragen die größten Irritationen aus. ZEIT ONLINE etwa wollte lediglich wissen, wie viele Menschen mit Migrationshintergrund in welchem Bundesland leben. (Man kann sich an dem Ausdruck stören oder ihn albern finden, aber er umfasst alle diejenigen, die als Migranten wahrgenommen werden, unabhängig von ihrer Staatsangehörigkeit). Wir hatten mit einem Zeitaufwand von einer halben Stunde gerechnet. Daraus wurden drei Wochen.

Menschen mit Migrationshintergrund sind hierzulande ein Politikum. Alle reden über sie, ziehen diesen Begriff für allerhand Vergleiche heran – doch niemand weiß, wie viele damit genau bezeichnet werden. Hier die Geschichte unserer Recherche.

Als Antwort auf die obige Frage wurde uns vom Statistischen Bundesamt mitgeteilt, genaue Zahlen könnten nur für die alten Bundesländer angegeben werden. Für fünf Bundesländer gebe es sie nicht. Zitat: „590.000 Personen mit Migrationshintergrund lebten 2010 zusammengenommen in den Neuen Bundesländern.“

„Die Zahlen gibt es nicht“

Für eine genauere Aufschlüsselung dieser Zahl verweist man an die fraglichen fünf Statistischen Landesämter. Doch keines davon will mehr sagen als diese eine pauschale Zahl für alle zusammen. Eine Aufschlüsselung der Migranten für jedes Bundesland ist angeblich nicht erhältlich.

Dass das nicht ganz stimmt, lässt eine interne Mail vermuten, die ganz offensichtlich aus Versehen an uns geschickt wird. Denn sie legt nahe, dass diese Pauschalzahl eine Verabredung ist: Diese unsere Anfrage „ist wahrscheinlich an alle neuen Bundesländer gegangen; werden Sie koordinieren?“, heißt es da aus Thüringen. Und: „Sicherlich ist die Datenlage in unseren Ländern ähnlich ‚dünn‘.“ Dass das „dünn“ in Anführungszeichen steht, bietet viel Spielraum für Spekulationen. Die Antwort aus Brandenburg lautet: „ja ich werde dem Journalisten mitteilen, dass es keine Daten für die einzelnen NBL [Neue Bundesländer, Anm. d. Autors] gibt.“

Soll das etwa heißen, dass die Zahlen existieren, aber nicht an die Öffentlichkeit kommen sollen? Wir sind verwundert und fragen weiter: Bei den Statistikämtern und beim für sie zuständigen Bundesinnenministerium.

Und tatsächlich, die Zahlen existieren. Hier zu sehen als Google Fusion Table.

Sie werden bei der jährlichen Erhebung von Bevölkerungsdaten, dem sogenannten Mikrozensus, detailliert und methodisch erfragt, sollen jedoch nicht öffentlich verwendet werden. Offiziell lautet der Grund für die Nicht-Veröffentlichung, der uns nun genannt wird: Zu kleine Fallzahlen, daher zu große Fehlerwahrscheinlichkeit nach der Hochrechnung.

Beim Mikrozensus wird jährlich ein Prozent der Haushalte in Deutschland von den Statistischen Landesämtern befragt. Die Ergebnisse dieser Befragung werden auf das jeweilige Land hochgerechnet – grob gesagt: mit 100 multipliziert. Ausnahme: Ein abgefragter Fall tritt zu selten auf, was natürlich in bevölkerungsschwachen Bundesländern häufiger vorkommt. Dann wird allerdings nicht im Einzelfall nach Lust und Laune entschieden. Vielmehr gibt es einen klar definierten einheitlichen Schwellenwert. Dagmar Ertl vom Statistischen Amt Saarland erklärt:

Es gibt sie doch, aber sie sind ungenau

„Bei Stichprobenerhebungen wie dem Mikrozensus treten zufallsbedingte Fehler auf. Das sind Abweichungen, die darauf zurückzuführen sind, dass nicht alle Einheiten der Grundgesamtheit befragt wurden. Als Schätzwert für den zufallsbedingten Stichprobenfehler dient der so genannte Standardfehler, der aus den Einzeldaten der Stichprobe berechnet wird. Für hochgerechnete Jahresergebnisse, das heißt für weniger als 50 Fälle in der Stichprobe geht der einfache relative Standardfehler über 15 Prozent hinaus. Solche Ergebnisse haben nur noch einen geringen Aussagewert und sollten deshalb für Vergleiche nicht mehr herangezogen werden. Hochgerechnete Besetzungszahlen unter 5.000 werden demzufolge nicht nachgewiesen und in Veröffentlichungen des Mikrozensus durch einen Schrägstrich („/“) ersetzt.“

Aus diesem Grund tauche etwa die Bevölkerungsgruppe der Über-95-Jährigen in Hamburg nur als „/“ in Veröffentlichungen auf, sagt Dr. Jürgen Delitz vom Statistikamt Nord (Hamburg / Schleswig-Holstein). Diese Gruppe sei schlicht zu klein.

Die Gruppe der Menschen mit Migrationshintergrund in den Neuen Bundesländern indes ist mit den genannten 590.000 größer als eine halbe Million Menschen. Selbst in Mecklenburg-Vorpommern leben laut der internen Statistik hochgerechnet 77.000 von ihnen – deutlich mehr also als die geforderten 5.000.

Auf erneute Nachfrage argumentieren die Behörden plötzlich mit der relativen Zahl, die zu gering sei, um sichere Aussagen zu treffen. In der Tat beträgt die Quote der Menschen mit Migrationshintergrund im Osten knapp fünf Prozent. Im Westen sind es rund 22 Prozent.

Das Statistische Landesamt Saarland bestätigt allerdings das Naheliegende: Mit dem absoluten Schwellenwert 5.000 seien „auch potenziell niedrige relative Fallzahlen abgedeckt“.

Prof. Dr. Walter Krämer, Statistikprofessor an der TU Dortmund, kritisiert uns gegenüber die Nicht-Veröffentlichung detaillierter Zahlen als nicht nachvollziehbar: „Die wahren Motive der Datenproduzenten sind für mich ein Mysterium.“ Für uns auch, wir fragen weiter, unsere Mails erreichen immer höhere Ränge der Bürokratie, wie wir an den Absendern sehen.

„Migranten sind untererfasst“

Schließlich taucht ein neues Argument auf. Per Mail erklärt das Statistische Bundesamt: „Die nichtdeutsche Bevölkerung wird zudem gegenüber der deutschen Bevölkerung im Mikrozensus untererfasst. Diese Untererfassung ist in den Bundesländern Brandenburg, Mecklenburg-Vorpommern, Sachsen, Sachsen-Anhalt und Thüringen deutlicher ausgeprägt, als in den anderen Bundesländern. Teilweise erreicht die Untererfassung das Dreifache im Vergleich zur regulären Auswahl. In diesen Fällen wird in dieser Bevölkerungsgruppe nicht jeder hundertste, sondern nur jeder dreihundertste befragt.“

Die Nichtveröffentlichung wird in dieser Mail auch nicht mehr allein mit der Fehlerquote erklärt, sondern mit „methodischen Gründen“: „Aufgrund der vorstehend genannten Sachlage und der daraus resultierenden geringeren Datenqualität haben sich die Statistischen Landesämter von Berlin-Brandenburg, Mecklenburg-Vorpommern, Sachsen, Sachsen-Anhalt und Thüringen aus methodischen Gründen dazu entschlossen – unabhängig von der Höhe eines statistischen Schwellenwertes – keine Ergebnisse aus dem Mikrozensus für Ausländerinnen und Ausländer und Personen mit Migrationshintergrund auf der Ebene der einzelnen Bundesländer zu publizieren.“

Es folgen weitere Erläuterungen, unter anderem vom Landesamt für Statistik in Brandenburg, die sich auf die „Klumpenform“ der Befragungsbezirke beim Mikrozensus beziehen. In Kurzform besagen sie, dass die Methode des Mikrozensus nicht dazu taugt, Menschen mit Migrationshintergrund korrekt zu zählen. Die Daten, die bei dem Verfahren herauskommen, seien zu ungenau, zu schlecht. Zufällige Befragung und Hochrechnungen kämen hier an ihre statistische Grenze. Was zur Frage führt, ob solche grundlegenden Probleme dann nicht für all diese Zahlen gelten, also auch für die 590.000 und für die Angaben zu den alten Bundesländern…

Das Bundesamt verweist anschließend auf das Ausländerzentralregister. Dort gebe es Zahlen, die „nicht mit den oben genannten Datenqualitätsproblemen behaftet sind“. Zum Schluss gibt es noch einen Link. Es ist dieser hier.

Tatsächlich stehen dort detaillierte Angaben zu den einzelnen Bundesländern. Aber erfasst werden nur „Ausländer“, also jene, die keinen deutschen Pass haben. Wir jedoch wollten wissen, wie viele Menschen als Migranten gelten – was auch Menschen meint, deren Eltern vielleicht einst einwanderten, die aber Deutsche sind.

Obwohl in der Öffentlichkeit dauernd von diesen Migranten die Rede ist, weiß hierzulande also offiziell niemand, auf wie viele Menschen diese Bezeichnung zutrifft. Wir haben daher die „schlechten“ Zahlen der Statistikämter in unserer Grafik veröffentlicht. Mögen sie als vage Schätzung dienen.

23. Mai 2012 um 15:40 Uhr

Goldgrube Pharma-Daten

Visualisierung von Medikamenten-Verkaufsdaten der US-Pharmafirma Help /Quelle: http://helpineedhelp.com/whatswrongus/

Google, Facebook und Twitter sind so groß und wissen so viel, dass sie auch etwas über den Gesundheitszustand der Welt sagen können. Das zeigt: Daten können völlig neue Aussagen enthalten, wenn sie in einem neuen Zusammenhang betrachtet werden. Die Erfinder von Help Remedies zeigen das sehr anschaulich.

Help vertreibt in den USA Medikamente. Das Start-up versucht, mit Konzepten wie Transparenz, Design und gutem Gewissen Tabletten zu verkaufen. Auf ihrer Website wirbt die Firma mit Schlagworten wie „less greed“, „less dyes“ oder „less confusion“. Die Macher wollen also nicht so gierig sein wie andere und spenden fünf Prozent der Einnahmen, sie wollen keine bunten aber nutzlosen Farbstoffe in ihren Pillen einsetzen und sie wollen klarer sagen, was ein Medikament tut. Daher haben Schlaftabletten auch nicht irgendeinen ausgedachten Namen, sondern werden als „Help – I can’t sleep“ vermarktet, Hilfe, ich kann nicht schlafen.

Und sie hatten noch eine Idee: Die Informationen darüber, wo welche dieser Medikamente am häufigsten gekauft werden, hat Help nun anonymisiert und in einer Grafik aggregiert.

Was hast Du, USA?, fragt die Seite und will die kleinen Wehwehchen und Probleme sichtbar machen, mit denen sich die Menschen so plagen. Demnach werden die Texaner vor allem von ihren Bronchien geplagt, die Bürger in Kalifornien und Arizona von verstopften Nasen und die in Montana und Wyoming von Schlaflosigkeit. In Colorado und West-Virginia sind hingegen Blasen an den Füßen das größere Problem.

Das Ganze kommt witzig und bunt daher und ist eine geschickte Werbekampagne. Einerseits.

Andererseits stecken darin gleich zwei größere Themen. Das erste ist, wie oben bereits angerissen das Phänomen Big Data. Große Datenmengen können überraschende Aussagen enthalten, an die ursprünglich niemand dachte. Als die Google-Suche erfunden wurde, war sicher niemandem klar, dass die Daten einst taugen würden, den Gesundheitszustand der Welt zu beschreiben. Den Kunden von Help war wohl kaum klar, dass sie helfen würden, einen Krankheitsatlas der USA zu erstellen.

Und das ist das zweite große Thema: Immer mehr Unternehmen entdecken gerade den Datenschatz, auf dem sie sitzen und versuchen, ihn auszubeuten. Help ist da eher ein positives Beispiel. Schließlich sind die Daten anonymisiert, und Angaben zu Geschlechtskrankheiten oder psychischen Erkrankungen gibt es nicht.

Es gibt aber auch negative Beispiele für den Umgang mit so sensiblen Daten. Die amerikanische Apothekenkette Walgreen weiß ebenfalls sehr genau, was Kunden für Medikamente kaufen. Und verkauft diese Daten an sogenannte Data-Miner – an Firmen also, die sie auswerten und aufbereiten. Anschließend stehen die Daten gegen eine Gebühr Pharmafirmen zur Verfügung. Die können damit beispielsweise erfahren, welche Ärzte besonders viele Medikamente verschreiben und welche das sind. Was, neutral gesagt, völlig neue Möglichkeiten der Werbung eröffnet.

Das Programm nennt sich „Operational Data Share“ und bietet laut Eigenwerbung nahezu Echtzeitinformationen über verkaufte Medikamente in den Walgreens-Filialen in den USA.

Walgreen-Kunden fanden es nicht so lustig, zum Produkt gemacht zu werden. Sie haben die Firma deswegen gerade verklagt.

21. Mai 2012 um 15:19 Uhr

Weltbank stellt alle Studien unter CC-Lizenz ins Netz

Wie viel Prozent der Spanier nutzen das Internet? Wie hoch ist die Jugendarbeitslosigkeit in den USA? Nimmt der griechische Staat, gemessen an der Wirtschaftsleistung des Landes, wirklich weniger Steuern ein als der Deutsche? Wie groß ist die Fläche, die in Afghanistan durch Landminen verseucht ist? Hat Venezuela das Millenniumsziel schon erreicht, die Zahl der Armen zu halbieren? Wie gut ist die Ausbildung der Menschen in der arabischen Welt?

Antworten auf diese und viele andere Fragen finden sich in der Online-Datenbank der Weltbank. Schon seit längerer Zeit stellt die Weltbank der Öffentlichkeit viele ihrer Statistiken zur Verfügung. Zum Teil reichen die Daten Jahrzehnte zurück – eine echte Fundgrube. Nicht alle Statistiken sind bisher öffentlich, aber die wichtigsten lassen sich in der Online-Datenbank oder über eine Programmierschnittstelle (API) durchsuchen. Man kann sie auch herunterladen und dann mit Excel oder anderen gängigen Tabellenkalkulationsprogrammen weiterverarbeiten.

Jetzt will die Weltbank ihre Arbeit noch stärker in die Öffentlichkeit tragen. Ab dem 1. Juli sollen alle neuen Publikationen von Weltbank-Mitarbeitern im Netz frei verfügbar sein, ebenso neue Forschungsarbeiten, die von der Bank finanziert wurden. Damit sei jedermann „frei, die meisten Wissensprodukte und Forschungsergebnisse der Bank zu nutzen, wiederzuverwenden und weiterzuverbreiten, sei es zu kommerziellen oder nicht kommerziellen Zwecken“, teilt die Institution mit.

Einzige Bedingung: Die Weltbank muss als Urheber genannt werden (Creative-Commons-Lizenz CC BY). Um das gesammelte Wissen möglichst leicht zugänglich zu machen, will die Weltbank die Dublin-Core-Standards für Metadaten und das Open-Archives-Initiatives-Protokoll befolgen.

Was bringt das der Entwicklungspolitik? Darüber wollen zwei Weltbank-Leute am heutigen Montag mit Peter Suber, dem Direktor des Harvard Open Access Project, und Michael Carroll, Gründungsmitglied von Creative Commons diskutieren. Wer wollte, konnte vorab Fragen einschicken oder kann sich über Twitter (Hashtags: #wblive oder #openaccess) an der Debatte beteiligen.

16. Mai 2012 um 14:26 Uhr

Facebooks Zahlen in Bildern

Der britische Guardian hat eine Animation gebaut, die versucht, Facebooks Größe und Wachstum darzustellen:

10. Mai 2012 um 15:56 Uhr

Die Rolle deutscher Bundesligaspieler im Fußball und Basketball

In unserer „Alles außer Fußball“ Kolumne mit Arne Friedrich, Thomas Hitzlsperger und Corny Littmann kam das Gespräch auf eine mögliche Quotenregelung für deutsche Nachwuchskicker. Die Interviewpartner waren unterschiedlicher Meinung, wie es um die Förderung der heimischen Fußballer bestellt ist. Gerade jetzt vor der Europameisterschaft rückt die Nationalmannschaft wieder in den Mittelpunkt. Wie können sich talentierte deutsche Profis in der höchsten Liga durch Spielpraxis entwickeln und sich für die große internationale Fußballbühne empfehlen?

Wir haben das zum Anlass genommen, und uns mit Hilfe einer Datenauswertung ein genaues Bild über die aktuelle Situation in der Bundesliga verschafft.

Auf der offiziellen Website der Bundesliga werden für die einzelnen Spieler auf die Minute genaue Einsatzzeiten aufgeführt. Wir haben die Daten der sieben besten Teams (gleichbedeutend mit der Qualifikation für europäische Wettbewerbe) der Saison 2011/12 eingesammelt und dabei die Spieler im Datensatz mit ihrer Nationalität versehen. Das Ergebnis: Im Schnitt bestreiten deutsche Spieler rund 52 Prozent der Einsatzzeiten in diesen Topteams. Das detaillierte Ergebnis zeigt jedoch, wie unterschiedlich die Vereine auf deutsche Spitzenkräfte setzen.

Im Fußball sind Tore das Wichtigste. Wie schaut es also bei diesen mit der Verteilung aus? Im Schnitt der sieben Topmannschaften kommen die deutschen Fußballer auf rund 42 Prozent der erzielten Tore. Auch hier lohnt der Blick auf die unterschiedlichen Ausprägungen in den Teams:

Bayer Leverkusen setzt mit Abstand am stärksten auf deutsche Spieler, gefolgt von Bayern München, die in den letzten Jahrzehnten traditionell das spielerische Grundgerüst der Nationalmannschaft stellen. Beim frischgebackenen Meister Borussia Dortmund hingegen sind eindeutig internationale Spieler fürs Toreschießen zuständig. Bei Bundesligisten wie Schalke 04 und der VfB Stuttgart ist ein genereller Trend zu ausländischen Spielern zu beobachten. So lange die deutsche Nationalmannschaft erfolgreichen Fußball spielt, scheint noch kein Diskussionsbedarf über Quoten zu bestehen, man darf auf das Abschneiden bei der EM gespannt sein.

Basketball

Auch im Basketball ist Bayern München mittlerweile in der 1.Bundesliga angekommen. Hier wird ebenfalls verstärkt auf deutsche Spieler gesetzt. In unserem Gespräch mit dem ehemaligen Bundestrainer und jetzigen Trainer der Basketballer des FC Bayern, Dirk Bauermann, ging es um die Rolle der deutschen Spieler in der Liga und um die Perspektiven für den heimischen Nachwuchs. In der Vorbereitung des Gesprächs wollten wir es genau wissen: Welche konkreten Anteile an der Gesamtspielzeit haben die heimischen Basketballer in der höchsten deutschen Spielklasse?

Da im Basketball auf die Sekunde genaue Spielstatistiken vorliegen, konnten wir leicht eine Gesamtrechnung für die acht besten Teams der Hauptrunde (qualifizierte Teams für die Playoffs) aufstellen. Dazu wurden auch hier Nationalitäten der einzelnen Spieler zugeordnet, um eine sattelfeste Unterscheidung in den Daten zu haben. Das Ergebnis zeigt, wie stark die Vereine auf ausländische Kräfte setzen:

Außerdem wollten wir wissen, wie hoch die Verteilung bei der Punkteausbeute in den Vereinen war. Rechnet man die Hauptrundenspiele aller acht Playoffteilnehmer zusammen, kommen die deutschen Korbjäger auf einen mageren Anteil von knapp 20 Prozent der erzielten Punkte. Dieses Diagramm zeigt, wie schwer es deutsche Spieler in den Vereinen haben:

Diese Statistiken legen gerade beim Basketball den Finger in die Wunde. Regeländerungen sollen nun den deutschen Nachwuchs fördern. So gilt in der neuen Saison der Grundsatz: Im Kader dürfen nicht mehr als sechs Ausländer sein. Dirk Bauermann geht sogar weiter und fordert, dass in der ersten Liga jederzeit einer der fünf Akteure auf dem Feld ein deutscher Spieler sein muss.

7. Mai 2012 um 13:55 Uhr

Handbuch des Datenjournalismus

data-mining — Ein Tricorder, in der Science-Fiction-Serie "Star Trek" ein Gerät, um Daten zu sammeln, Quelle: JD Hancock, CC BY 2.0 http://www.flickr.com/photos/jdhancock/3386035827/

Was ist Datenjournalismus, warum sollten Journalisten Daten nutzen und wenn sie es denn wollen, wie geht das überhaupt? Diese und viele weitere Fragen will das erste Datenjournalismus-Handbuch beantworten. Das gibt es natürlich im Netz und demnächst auch als gedruckte Version.

Das Buch soll einen Überblick über das Thema geben, nicht eine dezidierte Anleitung sein, wie man Datenjournalist wird. Zu Letzterem, heißt es im Vorwort, bräuchte es sehr viel mehr Wissen und Instrumente. Glücklicherweise existiere aber eine ganze Bibliothek mit den Dingen, die ein Datenjournalist brauche: „Luckily this library exists and it is called the internet.“

Ein Überblick also. Der erste Teil beschäftigt sich ganz allgemein mit dem Thema und stellt mehrere erfolgreiche Projekte vor. In kurzen Texten beschreiben Datenjournalisten von der BBC, der Chicago Tribune, vom Guardian und von anderen Medien, warum sie mit Daten arbeiten und was sie davon haben. Anschließend werden einzelne Projekte genauer beleuchtet.

Interessanter wird es im nächsten Teil. Dort geht es darum, wie man überhaupt an Daten gelangt. Beispielsweise durch „wobbing“, also durch Anfragen nach dem Informationsfreiheitsgesetz. Die sind mühsam, aber lohnend. Genauso wie jene Daten, die längst zugänglich sind und nur noch über entsprechende Schnittstellen (API) ausgelesen werden müssen.

Ich hatte hier vor einiger Zeit die These vertreten, dass APIs für Journalisten bald einer der wichtigsten Wege sein werden, um an spannende Geschichten zu kommen. Der Abschnitt des Buches bestätigt mich in dem Glauben.

Tipps aus der Praxis

Beschrieben wird aber auch das „scraping“, also das „Herunterkratzen“ von Daten von einer Website mithilfe spezieller Software. Das folgt der Idee, dass man ja nichts per Hand abschreiben muss, was schon digital vorliegt. Ganz so trivial ist es aber nicht. Scraping braucht ein paar Kenntnisse über die Struktur von Websites. Friedrich Lindenberg von der Open Knowledge Foundation gibt hilfreiche Beispiele und Links. Allerdings ist scraping nicht immer legal, worauf in dem Kapitel leider nur kurz eingegangen wird.

„Crowdsourcing“ wird selbstverständlich ebenfalls behandelt – also die Bitte an Leser und Nutzer, Daten zu sammeln. Dazu gibt es Tipps, wie solche Vorhaben gelingen. Ein Zitat dazu vom Guardian: „If I were to give advice to aspiring data journalists who want to use crowdsourcing to collecting data, I would encourage them do this on something that people really care about, and will continue to care about when it stops making front page headlines.“

Die letzten beiden Kapitel beschäftigen sich schließlich damit, die gefundenen Daten zu verstehen und sie dann so aufzubereiten, dass auch andere sie verstehen.

Grundsätzlich gibt es viele praktische Hinweise von denen, die es bereits ausprobiert haben. Insofern ist das Handbuch auch eine Art Zwischenbericht zum Zustand des Datenjournalismus in Europa und Nordamerika. Und das Beste daran: Es kostet nichts.

Entstanden ist das Buch bei einem Workshop im November 2011 beim Mozilla Festival in London. Die Idee dazu hatten das European Journalism Centre und die Open Knowledge Foundation.

Disclaimer: ZEIT ONLINE hat an dem Handbuch mitgearbeitet und stellt darin einige eigene Projekte vor. Und da wir gerade bei der Eigenwerbung sind: Alle datenjournalistischen Projekte von ZEIT ONLINE finden sich hier gesammelt.

27. April 2012 um 15:35 Uhr

Preis für Datenjournalisten

Zum ersten Mal werden demnächst die internationalen Data-Journalism-Awards vergeben. Das vergleichsweise neue Thema Datenjournalismus soll damit gewürdigt und bekannter gemacht werden. Der Preis wurde vom Global Editors Network (GEN) initiiert und wird gemeinsam mit dem European Journalism Centre vergeben. Zu den Sponsoren gehört Google.

Die Data Journalism Awards sollen künftig jährlich in drei Kategorien verliehen werden: Data-driven investigative journalism, Data visualisation & storytelling, Data-driven applications. Dabei werden zwei erste Preise vergeben. Einer ist für nationale und internationale Medien gedacht und einer für regionale oder lokale Anbieter. Beide Sieger erhalten jeweils 10.000 Dollar Preisgeld. Die Preisverleihung ist am 31. Mai in Paris.

Hier ist die Shortlist der Nominierten als Google Spreadsheet.

Darunter sind auch zwei Arbeiten aus Deutschland, eine Grafik von der Berliner Morgenpost über das Berliner Abgeordnetenhaus und eine App der Universität Kobblenz. Die analysiert Webangebote in der Umgebung von San Diego, um Helfer bei Einsätzen dort mit nützlichen Fakten zu versorgen.

Die meisten Vorschläge kommen aus Großbritannien und den USA, doch sind auch Projekte aus Uganda, der Ukraine und Afghanistan dabei.

Mehr dazu hier und hier im britischen Guardian.

Offenlegung: Wolfgang Blau, Chefredakteur von ZEIT ONLINE, ist Mitglied der Jury.

27. April 2012 um 12:03 Uhr

Das Geschäft mit dem Ackerland

Bildschirmfoto 2012-04-27 um 11.39.06 — Landverkäufe weltweit / Screenshot ZEIT ONLINE / Quelle: http://landportal.info/landmatrix

Das Geschäft mit Land boomt – spätestens, seit die Nahrungspreise steigen, fruchtbares Land auch für den Anbau von Treibstoffpflanzen benötigt wird und Investoren mit Aktien und Anleihen nicht mehr so viel Geld verdienen können wie vor der Finanzkrise. „Land Grabbing„, die Aneignung von Flächen durch Investoren auf Kosten der lokalen Bevölkerung, ist zu einem großen Thema geworden.

Die Öffentlichkeit erfährt oft nichts über die Bedingungen der Landverkäufe. Auch gibt es noch keinen Überblick über Ausmaß, Ziel und Folgen der bisher abgeschlossenen Landgeschäfte. Eine neue Datenbank soll das jetzt ändern: die „Land Matrix“ veröffentlicht Informationen zu großen Landverkäufen oder -pachtgeschäften. Seit heute ist sie online, als Teil der umfassenderen Plattform „Land Portal“, die Informationen und Debatten rund um das Geschäft mit Land bündelt.

Den Betreibern zufolge versammelt die Datenbank Informationen über Landgeschäfte, die seit dem Jahr 2000 für land- oder forstwirtschaftliche Zwecke, für Rohstoffabbau, Tourismus oder Naturschutz abgeschlossen wurden. Insgesamt umfasse sie mehr als 2.200 Transaktionen. Öffentlich einsehbar ist bislang nur etwa die Hälfte. Der Rest müsse noch verifiziert werden und werde nach und nach hinzugefügt, heißt es auf der Seite. Gleiches gelte für neue Fälle, die jeder per E-Mail (report@landportal.info) melden kann.

Hinter der Matrix stecken große Organisationen der Entwicklungspolitik und Forschungsinstitute, unter ihnen die International Land Coalition, zu der die Weltbank ebenso gehört wie Nichtregierungsorganisationen, die Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) und das German Institute for Global and Area Studies (GIGA). Gefördert wird das Projekt unter anderem durch Oxfam, das deutsche Entwicklungsministerium und die Europäische Kommission.

Als Quellen nutzen die Datensammler die Berichterstattung der Medien, Reports von Nichtregierungsorganisationen, die teils bereits im Netz verfügbar sind, oder Berichte aus empirischen Forschungsprojekten. Unternehmens-Webseiten und Regierungsakten werden ebenfalls ausgewertet, sofern sie öffentlich zugänglich sind. Zur Verifizierung werden die Daten miteinander verglichen und durch Partner in den betroffenen Ländern überprüft.

User können die bisher verifizierten Daten problemlos im .csv-Format herunterladen – also als Textdatei, die von gängigen Tabellenkalkulationsprogrammen wie Excel oder OpenOfficeCalc erkannt und verarbeitet werden kann. Die interaktiven Schaubilder der Seite veranschaulichen die Trends des Geschäfts. Sie lassen sich leider nicht anderswo einbinden. Nur ein Teil der Grafiken kann als PDF heruntergeladen werden. Sämtliche Informationen stehen unter der Creative-Commons-Lizenz BY-NC-SA 3.0.

Ob Weltbank, ihre Kritiker oder die beteiligten Forscher: Sie alle erhoffen sich von der Land Matrix Aufschluss darüber, wie hilfreich oder schädlich das globale Geschäft mit Land tatsächlich ist. Die Deals sind nicht zwangsläufig unsozial. Institutionen wie die Weltbank und die Welternährungsorganisation setzen sogar darauf, durch größere Investitionen die Erträge der Landwirtschaft in Entwicklungsländern zu erhöhen.

Entwicklungsorganisationen halten dagegen: Die Kämpfe ums Land würden brutaler, gewaltsame Vertreibungen seien an der Tagesordnung, das Menschenrecht auf Nahrung werde „tausendfach verletzt“. Zwar scheint es bislang nicht viele positive Beispiele zu geben, aber zumindest Einzelfälle zeigen: Würden die Rahmenbedingungen stimmen, könnten alle etwas vom Geschäft haben.

Eine erste Auswertung der Daten durch die beteiligten Forscher legen drei Schlüsse nahe: Landgeschäfte gehen häufig tatsächlich zu Lasten der lokalen Bevölkerung. Sie finden vor allem in Ostafrika und Südasien statt. Und: groß angelegte Land-Investitionen sind kein vorübergehendes Phänomen, sondern ein Trend, der erst einmal anhalten wird.

Eine detaillierte Auswertung der Ergebnisse erscheint in Kürze im Wirtschaftsressort von ZEIT ONLINE.

18. April 2012 um 10:03 Uhr

Luftbild-Karten selbstgemacht

Balloon-Mapping, die Grundausrüstung / Quelle: http://publiclaboratory.org/wiki/balloon-mapping-materials (CC BY-NC-SA 2.0)

Monopole nützen wenigen, Technik und Daten, die jedem zugänglich sind, nützen vielen. Ein Beispiel dafür sind Bilder der Erde. Früher konnten sich nur Geheimdienste großer Staaten Satelliten- und Luftaufnahmen leisten, dann große Firmen, dann kam Google und machte sie der Welt zugänglich. Mit dem Ergebnis, dass inzwischen unzählige Angebote diese Bilder nutzen.

Der nächste Schritt dieser Demokratisierung ist, auch die Herstellung solcher Bilder für jeden möglich zu machen. Dieser Idee hat sich eine Bewegung namens Grassroots-Mapping verschrieben. Die Fans basteln Ballons, um Kameras in den Himmel steigen zu lassen und so Bilder zu sammeln.

infrarot — Infrarot-Aufnahme des Gowanus-Kanals in New York. Freiwillige beobachten mit von Ballons gemachten Fotos, ob Abwässer eingeleitet werden / Quelle: http://mapknitter.org/map/view/2011-7-31-brooklyn-gowanus-ir (Public Domain)

Denn Googles Ergebnisse sind zwar für jeden kostenlos sichtbar, die Rohdaten aber nicht. Denn sie gehören noch immer einem Konzern – bilden also weiterhin ein Monopol. Weswegen Google auch durchaus darüber nachdenkt, Geld für seine Karten zu nehmen. Das störte auch schon bei den im Internet verfügbaren Straßenkarten viele, weswegen erfolgreiche Projekte wie Open Street Map entstanden und Nutzer die Daten selbst sammelten.

Das Public Laboratory for Open Technology and Science hat nun ein Balloon Mapping Kit zusammengestellt, mit dem jeder für wenig Geld Luftbilder erstellen und zu Karten bauen kann. Angeboten wird der Bausatz für 85 Dollar, es fehlen dann noch eine Kamera und Helium für den Ballon. Die Karten-Software namens Map Knitter ist kostenlos.

Auf der Seite des Public Laboratory gibt es viele Bauanleitungen und Tipps für solche Projekte. Beispielsweise das Soda-Bottle-Rig. Der Halterahmen, gebaut aus PET-Flaschen und Gummis schützt die Kamera bei Stürzen und verringert ihr Schlingern in der Luft.

Wozu das Ganze? Nun, beispielsweise um sich einen Überblick über eine Ölpest zu verschaffen. Oder um das Ausmaß von Demonstrationen wie Occupy zu dokumentieren. Oder, oder.

Übrigens, wer kein Helium auftreiben kann, das funktioniert natürlich auch mit Drachen.

Für viele sinnvoll werden die Daten allerdings nur, wenn sie auch irgendwo gesammelt werden. Daher hat das Public Laboratory dafür eine Datenbank aufgesetzt. Fehlt eigentlich nur noch eine Plattform, die Luftbilder aus aller Welt sammelt und zu einer Weltkarte baut.

Via Google Lat Long

16. April 2012 um 14:45 Uhr

„Guardian“ will Cookie-Daten sammeln

Bildschirmfoto 2012-04-16 um 14.38.24 — Firefox-Add-on "Collusion" von Mozilla, das Cookies auswertet und verfolgt / Screenshot ZEIT ONLINE

Wer an Daten kommen will, kann diese in bestehenden Datenbanken suchen. Oder er kann sie selber sammeln.

Die britische Zeitung Guardian hat gemeinsam mit der Mozilla-Foundation ein Projekt gestartet, um zu untersuchen, was Cookies im Internet so alles ausforschen. Tracking the Trackers ist der Titel, was so viel heißt, wie die Verfolger zu verfolgen.

Cookies und andere Werkzeuge überwachen viele Handlungen im Netz und beobachten, was Nutzer sehen und tun. Die Zeitung möchte mit ihrem Projekt herausfinden, wer die Entwickler dieser Cookies sind und wer die Nutznießer der von ihnen gesammelten Daten. Dazu aber braucht man erst einmal die Daten.

Noch sind keine Ergebnisse zu sehen, denn die dafür notwendigen Informationen wirbt der Guardian derzeit erst bei seinen Lesern ein. Die werden gebeten, bei Mozilla ein Zusatzprogramm für den Browser Firefox herunterzuladen. Das Add-on namens Collusion beobachtet dann die Cookies, die sich ein Nutzer einfängt. Das sind viele. Wie viele, hat beispielsweise Astrid Herbold gerade für ZEIT ONLINE aufgeschrieben.

Der Guardian nun bittet seine Nutzer, die gesammelten Daten anschließend zu spenden. Schon die Bewegungen eines normalen Surf-Tages genügten dafür.

Mit dem Projekt wolle man besser verstehen, wer die Giganten in dem Geschäft sind. Anschließend werde man diese, wenn sie denn identifiziert sind, zurückverfolgen. „Wir werden herausfinden, welche Daten sie sammeln und warum“, schreibt die Zeitung.

Die genaue Anleitung für die Installation von Collusion und für den Export der Daten gibt es hier.

Das Prinzip heißt Crowdsourcing: die Nutzung des Wissens der Masse. Mozilla selbst plant das auch. Noch ist Collusion im Experimentierstatus. In der endgültigen Version soll es die Möglichkeit geben, seine Daten anonym zu spenden, sodass eine weltweite Datenbank des Webtrackings entstehe, heißt es auf der Mozilla-Seite.

Diese Art der Mitarbeit kann spannende Ergebnisse liefern. So hat der Programmierer Michael Kreil von einiger Zeit darum gebeten, ihm die Lokalisierungsdaten zu spenden, die iPhones bis dahin gesammelt hatten. Mit diesen baute er mehrere Filme, auf denen die Bewegungen von iPhone-Besitzern vor allem in Deutschland zu sehen waren.

Das Wall Street Journal hatte vor einiger Zeit ein ähnliches Projekt gestartet. Auch What They Know will zeigen, was Onlinemarketingfirmen über Nutzer wissen. Das Ergebnis war vor allem eine spannende Grafik. Die Daten dazu wurden allerdings nicht von vielen Menschen gesammelt, sondern von einem Analysten, der sich einzelne Websites ansah.

Der Ansatz des Guardian verspricht da mehr Überraschung, da er ohne konkretes Ziel erst einmal alle Daten sammelt und dann schaut, was sich darin findet.

Empfohlener redaktioneller Inhalt