Offene Daten – offene Gesellschaft

Autoren Archiv von Kai Biermann

Adressen der Berliner Arztpraxen sind ein Geheimnis

Von 7. April 2014 um 09:42 Uhr

Die Adressen aller Arztpraxen in vier Städten zu besorgen, wie kompliziert kann das schon sein? Immerhin stehen sie in jedem Telefonbuch. In Hamburg, Köln und München war es auch kein Problem, für unser Projekt zur Praxisdichte von den zuständigen Stellen eine Liste aller Ärzte der jeweiligen Stadt zu erhalten. Es genügten einige Telefonate, dann schickten die Kassenärztlichen Vereinigungen ein entsprechendes Excel-Dokument per E-Mail.

Nur in Berlin weigerten sich Ärztekammer und Kassenärztliche Vereinigung (KV) standhaft, die Adressen der niedergelassenen Ärzte herauszugeben. Beide berufen sich auf den Datenschutz. Von der Ärztekammer heißt es zusätzlich am Telefon, die Presse bekäme solche Daten “schon mal gar nicht”.

Wir stellten daher am 4. März an Ärztekammer und Kassenärztliche Vereinigung einen Antrag nach dem Berliner Informationsfreiheitsgesetz und baten darum, uns die Daten in digitaler Form zu übermitteln.

Von der Ärztekammer hörten wir erst einmal gar nichts. Nach zwei Wochen fragten wir nach, was aus unserer Anfrage wurde, eine weitere Woche später kam die erste Reaktion. Von Datenschutz ist nun nicht mehr die Rede. Man sei nicht zuständig sondern allein die KV, heißt es in der E-Mail. Im Übrigen weise man darauf hin, “dass die von Ihnen erwünschte Information auf der Homepage der Kassenärztlichen Vereinigung Berlin verfügbar ist (Arztsuche der KVB)”.

Angesichts der erklärten Open-Data-Strategie Berlins ist das ein befremdliches Verhalten. Ja, die Daten werden sowohl als kostenpflichtiges Buch “Der Arzt – Handbuch des Berliner Gesundheitswesens” als auch als öffentliche Suche der KV und unter Ärzte-Berlin als Suche angeboten. Warum also nicht einfach ein Excel-Dokument verschicken, oder die Daten gleich für alle zum Download anbieten, wenn sie doch offensichtlich elektronisch vorliegen? Schließlich bedeutet Open Data auch, Daten zur weiteren Verarbeitung bereit zu stellen.

Vielleicht weiß die KV mehr? Die Kassenärztliche Vereinigung meldet sich immerhin eine Woche nach unserer Anfrage per Brief. Der Datenschutzbeauftragte der KV schreibt: “Für eine derartige Datenübermittlung von Informationen, die dem Sozialdatenschutz unterliegen, besteht keine Rechtsgrundlage und somit keine Übermittlungsbefugnis.”

Das Argument ist absurd. Die Daten haben keine datenschutzrechtliche Relevanz. Nicht einmal die Namen der Ärzte werden genannt. Es geht um die Adressen der Arztpraxen – also um eine durchaus wichtige Information für jeden Bürger, der sich krank fühlt.

Das sieht auch der Berliner Datenschutzbeauftragte so. Seine Sprecherin sagt, sie wisse nicht, was aus Sicht des Datenschutzes gegen eine Veröffentlichung sprechen solle.

Noch dazu, da diese Daten als Buch angeboten werden. Womit der Eindruck entstehen könnte, die Daten würden nur deshalb zurückgehalten, um das Geschäftsmodell des Verlages zu schützen. Der verlangt für jedes gedruckte Exemplar der Ärzteliste 53,50 Euro.

Nebenbei: Nach dem Berliner IFG Paragraf 4 Absatz 2 darf eine öffentliche Stelle keinen Vertrag mit einem privaten Anbieter schließen, der dem IFG entgegen steht. Die Daten können zwar verkauft werden, sie dürfen dadurch aber nicht für die Öffentlichkeit unzugänglich werden. So soll verhindert werden, dass Verwaltungen Geschäftsmodelle von Unternehmen schützen.

Aber auch die Berliner Senatsverwaltung für Gesundheit hat keine Handhabe gegen die Ärztevertreter. Man könne daran leider nichts ändern, lautet ihre Antwort. Zumindest lässt man im Senat durchblicken, dass man über das Verhalten nicht erfreut sei.

Die Geschichte hat leider kein happy end. Auch nach einem Monat haben sich die Berliner Ärztevertreter nicht bewegt. Der Berliner Beauftragte für Datenschutz und Informationsfreiheit prüft die Ablehnung unserer IFG-Anfrage. Ausgang unklar.

Wir haben die Berliner Praxisdaten letztlich gescrapt, also mit einem Programm automatisch aus der Website der Arztsuche ausgelesen. Genauso wie die Daten der Berliner Zahnärzte – deren Vertreter wollten uns zwar auch nichts schicken, meinten aber immerhin, sie hätten nichts dagegen, wenn wir die Datenbank selbst auslesen würden.

Damit andere das nicht wieder tun müssen, wenn sie eine Idee haben, wie sich diese Informationen noch sinnvoll einsetzen lassen, stellen wir sie hier in einem öffentlichen Googledoc zum Download bereit.

Kategorien: Datenjournalismus

Neues Wissen aus alten (Telefonbuch-)Daten

Von 21. März 2014 um 09:36 Uhr
Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Daten verbrauchen sich nicht. Mit neuen Fragen lassen sich auch aus alten Daten immer wieder neue Erkenntnisse gewinnen. Patrick Stotz und Achim Tack liefern dafür mit ihrem Projekt Mappable ein Beispiel.

Sie haben alte Telefonbücher aus den Jahren 2004 bis 2012 gekauft und die Daten aus Berlin genutzt, um darin nach Menschen zu suchen, deren Adresse sich im Laufe der Zeit geändert hat. 50.000 haben sie eindeutig identifizieren können, schreiben sie in ihrem Blog zu dem Projekt. Die Umzüge dieser 50.000 innerhalb der Stadt haben sie anschließend auf einer Karte visualisiert. Die Karte zeigt nun, wohin die Menschen in Berlin ziehen.

Das erzählt einiges darüber, wie die Stadt funktioniert.

Demnach ziehen aus den Bezirken Kreuzberg und Neukölln die meisten Menschen weg. Beide sind auf der Karte tiefblau, was für eine hohe Netto-Abwanderung spricht. Gleichzeitig schrumpft die Bevölkerung dort jedoch nicht und aus Berlin selbst ziehen wenige Menschen dorthin. Was bedeutet, dass beide so etwas wie ein Hafen für Einwanderer sind. Offensichtlich ziehen viele, die nach Berlin kommen, erst einmal dorthin. Kreuzberg und Neukölln gelten als spannend, bunt und zentral, die Mieten sind insgesamt trotzdem vergleichsweise niedrig. Entweder verdrängt der Zuzug viele der Alteingesessenen, oder die Neubewohner überlegen es sich später anders und wandern in andere Bezirke weiter.

Den größten Netto-Zuzug in Berlin hat Zehlendorf, ein reicher und ruhiger Bezirk im Südwesten. Die meisten Zuzügler kommen aus Wilmersdorf, Charlottenburg und eben aus Kreuzberg. Das würde die These des Einwanderer-Hafens stützen.

Das ist ein für viele Großstädte klassisches Muster: Junge Menschen ziehen in die Innenstadt, wenn sie für Beruf oder Studium kommen. Wenn sie älter werden, suchen sie ruhigere und auch teurere Bezirke am Rand. Mappable belegt diese Theorie. Und die Telefonbuchdaten erlauben es sogar, das genauer zu tun als die offizielle Statistik. Die kennt als kleinste Ebene nur den Stadtbezirk. Mappable bricht die Daten auch auf Ortsteile herunter und kann damit ein granulares Bild zeichnen.

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Es ist nicht das erste Mal, dass Telefonbücher als Datenquelle genutzt werden, um soziologische Aussagen zu treffen. Aber die Umzugsanalyse ist ein interessanter Ansatz. Die beiden Entwickler sind optimistisch, dass sie mit ihrer Idee eine neue Datenquelle erschlossen haben. In ihrem Blog schreiben sie:
“To sum things up: we are quite enthusiastic about the potential of phone directories as a data source and there are definitely more research questions that can be answered with these data sets besides only migration patterns (e.g. monitoring gentrification processes, identifying ethnicity patterns).”

Kategorien: Datenquelle

Big Data aus dem Weltall

Von 5. März 2014 um 12:28 Uhr
Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert. Quelle: Skybox

Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert Quelle: Skybox

Für alle zugängliche Satellitenbilder? Daran haben wir uns längst gewöhnt. Noch vor ein paar Jahren konnten sich nur Geheimdienste und Regierungen so etwas leisten, inzwischen aber gibt es sie dank Google Earth und anderen Diensten kostenlos für jeden – zumindest statische Aufnahmen der Erde aus dem All.

Nun jedoch sind Satelliten und Kameras so klein und vergleichsweise billig geworden, dass es sich für Unternehmen lohnt, sogar Livebilder aus dem Weltraum anzubieten. Nicht kostenlos, aber für jeden, der bereit ist, dafür Geld zu zahlen.

Zwei Unternehmen arbeiten derzeit daran, eine Flotte von Mikrosatelliten zu starten, um anschließend Fotos und auch Videos von jedem Punkt der Erde auf Bestellung zu verkaufen.

Skybox Imaging ist ein Unternehmen in Palo Alto, Kalifornien. Seit 2009 hat es ungefähr 100 Millionen Dollar Wagniskapital ausgegeben und Satelliten entworfen. Insgesamt 24 will man starten, der erste ist inzwischen im All. Er liefert auf Bestellung 90 Sekunden lange Videos von jedem gewünschten Ort.

Das Sichtfeld der Kamera ist zwei Kilometer mal ein Kilometer groß. Die Auflösung beträgt zwischen 90 und 110 Zentimetern und genügt, um fahrende Autos zu erkennen oder Flugzeugen beim Landen zuzusehen. Für ein Werbevideo ist die Firma beispielsweise über Nordkorea geflogen und hat eine Atomanlage gefilmt.

Looking Down From 600 km Above The Earth’s Surface with HD Video from Skybox Imaging on Vimeo.

Doch das sind nicht die entscheidenden Bilder. Vielmehr machen solche Unternehmen eine neue Form der Datensammlung und Datenauswertung möglich und liefern damit neue Erkenntnisse über den Zustand der Welt und der Wirtschaft.

Natürlich können damit Umweltverschmutzung und Katastrophen genau verfolgt werden: Brandrodung beispielsweise oder Ölteppiche auf dem Meer. Aber solche Themen dürften nur ein eher unbedeutender Teil des Geschäftsmodells sein.

Skybox wirbt damit, beispielsweise den Füllstand von großen Öltanks in Häfen und Raffinerien feststellen und überwachen zu können. Diese Tanks haben ein bewegliches Dach, sind sie voll, ist das Dach weit oben, sind sie leer, ist es unten. Skybox-Kameras schätzen die Füllhöhe und ermöglichen so eine Analyse über Handelsvolumen und Reserven in Ölhäfen.

Skybox wirbt damit, den Containerumschlag in Häfen beobachten zu können und die Zahl von Autos auf einem Parkplatz. Große Firmen und große Einkaufszentren haben große Parkplätze, die Menge der Autos dort sagt etwas über die Höhe der Produktion und die Stärke der Kaufkraft. Auch das Wachstum auf Getreidefeldern könne überwacht werden und damit die Höhe der Erntemengen.

Werden solche Daten zusammengefasst, dürften sie ein ziemlich genaues Barometer der Wirtschaftskraft eines Landes darstellen – in Echtzeit. Wirtschaftskrisen erkennen, Lieferengpässe vorhersagen? Kein Problem. Noch dazu gibt es kaum einen Weg, solche Informationen flächendeckend zu verschleiern. Für Börsenhändler, Finanzberater, Investmentbanken sind solche Daten besser als Gold. Kein Wunder also, dass Skybox viel Kapital sammeln konnte und dass es bereits eine zweite Firma gibt, die das gleiche anbieten will.

Planet Labs hat sogar schon zwei Satelliten gestartet und will insgesamt 28 ins All bringen.

Zusammen mit Drohnen, die ebenfalls immer leichter verfügbar werden, liefern fliegende Kameras völlig neue Einblicke in die Welt. “Big Data. From space“, lautet denn auch einer der Werbesätze von Skybox. Das kann zum Schlechten genutzt werden, zur Überwachung von Bürgern, aber auch zum Guten, um Warenkreisläufe zu verstehen und Probleme vorherzusagen.

Via Wired und @lorz.

Wenn die Temperatur sinkt, steigt der (Porno)-Traffic

Von 13. Januar 2014 um 15:30 Uhr

Pornografie ist im Internet der “elefant in the room”, wie man im Englischen sagt: riesig und unübersehbar, trotzdem redet kaum jemand über ihn. Auch, weil es kaum Daten gibt, die etwas darüber aussagen, wie riesig der Elefant wirklich ist.

Dabei sind solche Daten nicht uninteressant, wenn es sie denn mal gibt. Schließlich galt die Pornobranche lange Zeit als wichtiger technischer Vorreiter im Netz, auch wenn sie in dieser Rolle inzwischen von Sozialen Netzwerken abgelöst wurde. Der Anbieter Pornhub bietet solche Zahlen. Seit Sommer 2013 betreibt er ein Blog namens Insights, auf dem unter anderem Statistiken veröffentlicht werden.

Eine davon zeigt, wie die Amerikaner auf die jüngste Kältewelle reagiert haben: Sie haben mehr Pornos geguckt. In Maine, Michigan und Florida zum Beispiel waren es rund 40 Prozent mehr als sonst im Januar.

Nicht immer und überall bringt der Winter einen erhöhten Pornokonsum mit sich: Japan ist die einzige Region, in der das Weihnachtsfest keine Auswirkung hat (Siehe unter Holidays, Christmas Eve). Und Silvester muss einer der schlechtesten Tage für die Branche sein, da interessiert sich offensichtlich kaum jemand für sie.

Eine andere Statistik zeigt, wie verbreitet die mobile Internetnutzung in welchen Ländern ist: Deutschland ist demnach noch immer Desktop-Land. Nur sieben Prozent nutzen Tablets, nur 21 Prozent Smartphones (bei ihrem Pornokonsum). International ist das wenig, in den USA oder Großbritannien ist die mobile Nutzung bereits sehr viel verbreiteter.

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Noch also haben deutsche Unternehmen etwas Zeit, sich auf mobile Geräte einzustellen. Allerdings nicht sehr viel. Die Desktop-Nutzung ist in Deutschland von 2012 auf 2013 um zehn Prozentpunkte gefallen.

Weltweit gilt: Montag ist Pornotag, dann hat Pornhub die höchsten Zugriffe, an Sonntagen die geringsten. Offenbar wird genau das dann am Montag nachgeholt.

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Auch die Frage, ob in ärmeren oder in reicheren Gegenden länger Pornos konsumiert werden, kann das Portal beantworten. Es sind vor allem die Bewohner ärmerer Städte, die länger schauen.

PornHub gehört wie Youporn und viele andere Netzangebote zu dem Firmengeflecht von Mindgeek, einem Unternehmen mit Sitz in Luxemburg, das bis 2013 Manwin hieß. Und selbstverständlich ist das Veröffentlichen solcher Trafficdaten auch eine Form von Marketing, wie das amerikanische Magazin Slate anmerkt.

 

Kategorien: Datenquelle

Die Kolonialmächte des Internets

Von 8. November 2013 um 10:22 Uhr
Zahl der Internetnutzer weltweit. Die Ländergrößen werden proportional dazu dargestellt. Die Farben zeigen die "Durchdringung" der Netznutzung pro Land, also wie viel Prozent der Bewohner im Internet sind.

Zahl der Internetnutzer weltweit. Die Ländergrößen werden proportional dazu dargestellt. Die Farben zeigen die “Durchdringung” der Netznutzung pro Land, also wie viel Prozent der Bewohner im Internet sind.

Die Welt des Internets ist zweigeteilt. Es gibt die Sphäre der Nutzer und die Sphäre der Domaininhaber, also jener, die das Netz mit Inhalten füllen. Das Verhältnis der beiden ist ungleich verteilt, wie Karten zeigen, die das Oxford Internet Institute (OII) veröffentlicht hat.

Die Mehrheit der Domains im Netz ist in Nordamerika und in Europa registriert – fast ein Drittel aller Websites weltweit gehört Menschen und Organisationen in den USA, schreiben Mark Graham und Stefano De Sabbata vom OII.

Die Mehrheit der Internetnutzer hingegen lebt in China, das Land stellt die größte Internetpopulation der Welt. Gleichzeitig sind dort nur wenige Domains zu Hause.

Die Wissenschaftler nutzen als Vergleich den Wert User pro Domain, der sich ergibt, wenn man die Zahl der Nutzer eines Landes mit der Zahl der Domains dort ins Verhältnis setzt.

Weltweite Verteilung der Zahl registrierter Domains pro Land

Weltweite Verteilung der Zahl registrierter Domains pro Land

Weltweit errechneten sie den Durchschnitt von zehn Nutzern pro Domain. In den USA liegt dieser Wert bei drei. In China hingegen sind es pro Domain 40 Nutzer. Dort seien weniger Websites registriert als beispielsweise in Großbritannien.

Dieses Missverhältnis zeigt sich überall: Die Inhalte werden von Amerikanern und Europäern dominiert, der Rest der Welt schaut zu. Italien und Vietnam zum Beispiel haben nahezu die gleiche Zahl an “Netzbewohnern”, aber in Italien sind sieben Mal so viele Websites registriert wie in Vietnam.

Das beobachteten sie sogar in Japan. Dort leben zwei Mal so viele Netznutzer wie in Großbritannien, es sind dort aber nur ein Drittel so viele Websites registriert wie im Königreich.

Insgesamt sind 78 Prozent aller Domainnamen in Nordamerika oder Europa beheimatet. Asien kommt noch auf 13 Prozent der Domains, in Lateinamerika, Ozeanien und Afrika sind es jeweils weniger als fünf Prozent. Und so gibt es in Afrika mehr als 50 Nutzer pro Domain – viele Konsumenten, kaum Produzenten also.

Insgesamt leben inzwischen 42 Prozent aller Netznutzer in Asien. Und dort ist auch noch viel Wachstum möglich, da gleichzeitig die Durchdringung in Ländern wie Indien und China gering ist, also nur vergleichsweise wenige Bewohner des Landes auch im Netz sind.

Es gebe, schreiben Graham und De Sabbata, eine starke Korrelation zwischen dem Pro-Kopf-Bruttoeinkommen eines Landes (Gross National Income per capita) und der Zahl der Domains. Das Netz hat die Möglichkeit, Inhalte zu verbreiten, stark vereinfacht. Geld kostet das aber noch immer. Und so ergibt sich im Verhältnis von Produzenten und Konsumenten eine fast koloniale Struktur.

Zur Berechnung verwendeten die Wissenschaftler Zahlen aus dem Jahr 2013, die von Matthew Zook von der University of Kentucky zur Verfügung gestellt wurden.

Um das Ergebnis nicht zu verfälschen, wurden Domains von Ländern wie Tuvalu, Armenien oder Tokelau nicht berücksichtigt. Sie gehören zu denen, die weltweit gern registriert werden, weil ihre Domainendung so beliebt ist, oder weil die Registrierung nichts kostet. Domains mit .tv, .am oder .fm werden beispielsweise gern von Medienunternehmen aus aller Welt gebucht, .re von Réunion ist beliebt bei Immobilienmaklern, da es die englische Abkürzung für real estate ist.

Kategorien: Datenvisualisierung

Freedom of the Press Foundation bietet Code für anonymen Briefkasten

Von 16. Oktober 2013 um 16:09 Uhr

Nicht zuletzt Edward Snowden zeigt, wie wichtig sogenannte Whistleblower für eine aufgeklärte Gesellschaft sind. Manche Rechtsbrüche kommen nur ans Licht, wenn ein Insider sie publik macht. Da das – wie ebenfalls Snowden und vor allem Chelsea Manning belegen – gefährlich ist, braucht es anonyme Wege, um Sauereien öffentlich zu machen.

Die amerikanische Freedom of the Press Foundation hat nun ein Werkzeug veröffentlicht, um anonyme Datenspenden möglichst sicher zu machen. Entwickelt hat es der vor einiger Zeit verstorbene Hacker Aaron Swartz.

Swartz war ein begabter Programmierer und ein Aktivist der amerikanischen Netzszene, er hat unter anderem das Format RSS mitentwickelt und war bei Creative Commons beteiligt.

Eine seiner letzten Arbeiten war eben eine anonyme Postbox. Für das Magazin New Yorker entwickelte er das System namens Strongbox – unter der Bedingung, dass dessen Code open source sein solle, also allen zur Verfügung stehen. (Hier der Briefkasten des New Yorker)

Den Open-Source-Gedanken hat die Freedom of the Press Foundation nun vollständig umgesetzt. Sie hat das System geprüft und weiterentwickelt und bietet es unter dem Namen SecureDrop kostenlos jedem Medium auf der Welt an, zusammen mit Unterstützung beim Installieren und Hilfe beim Betrieb. Den Code getestet haben unter anderem der Sicherheitanalyst Bruce Schneier und der Entwickler von TOR, Jacob Applebaum.

New Yorker und Freedom of the Press Foundation sind nicht die Ersten, die erkannt haben, wie wichtig anonyme Kommunikationswege zu Lesern und Informanten sind. In Deutschland haben verschiedene Medien solche Briefkästen zum Teil bereits seit Jahren.

ZEIT ONLINE bietet einen an, der ebenfalls open source ist. Der Code kann von jedem kostenlos heruntergeladen und auf seiner Website installiert werden. Genau wie das System von Swartz steht auch der Code des ZEIT-ONLINE-Briefkastens beim Portal Github.

Kategorien: Datenjournalismus

Die Drohnen-Dokumente

Von 21. August 2013 um 12:25 Uhr

Wenn es um die Analyse von Informationen geht, sind PDFs nicht unbedingt das zugänglichste Format. Leider bestehen die Drohnen-Dokumente ausschließlich aus PDF-Dateien. Es sind insgesamt 372 Aktenordner mit teilweise mehr als 400 Seiten, von der ersten bis zur letzten Seite eingescannt und als PDF in einem Dateiordner gespeichert. Zusammen ist das Konvolut mehr als 80 Gigabyte groß. Es sind die gleichen Akten, die dem Untersuchungsausschuss des Bundestages zur Verfügung gestellt wurden, um den Fall Euro Hawk zu untersuchen.

Wegen der zum Teil schlechten Scans konnten wir die Akten nicht mit einer Texterkennungssoftware bearbeiten. Eine Datenanalyse ist daher kaum möglich, obwohl sie spannend wäre: Welche Behördenebenen wurden wann informiert, welche Mitarbeiter tauchten wo auf, zu welchen Zeitpunkten gab es die meisten Akten und warum? All diese Fragen hätten mit statistischen Mitteln untersucht werden können, wenn die Daten besser wären.

So aber blieb nur die Handarbeit. Zu sechst haben wir – Philip Faigle, Carsten Luther, Yassin Musharbash, Karsten Polke-Majewski, Thomas Wiegold und Kai Biermann – mehr als zwei Wochen lang gelesen. Allein einen Tag brauchten wir, um die Struktur der Ordner zu verstehen. Denn sie sind nicht chronologisch oder nach Abteilungen sortiert. Sondern nach den Beweisbeschlüssen, die der Untersuchungsausschuss des Bundestages formuliert hat. Die aber sind oft sehr allgemein gefasst, um möglichst viele Akten vom Verteidigungsministerium und seinen nachgeordneten Behörden zu bekommen. Beispielsweise lauten sie: “Es wird Beweis erhoben zum gesamten Untersuchungsauftrag durch Beiziehung sämtlicher Dokumente, Ausarbeitungen, Einschätzungen, Berichte o.ä. (…) zur Problematik SLWÜA zwischen dem 01.01.1999 und dem 18.08.2002″.

Die Ministerialbeamten wiederum haben offensichtlich alles zusammengesucht, was sie unter dem Stichwort Global Hawk / Euro Hawk in ihren Schränken finden konnten und das meistens unsortiert abgeliefert. Entsprechend durcheinander ist der Inhalt der Ordner.

Daher war eine gezielte Recherche nach einzelnen Ereignissen, Daten und Dokumenten unmöglich. Es blieb nur, Ordner für Ordner zu überfliegen und Seite um Seite zu lesen. Dabei stößt man auf so viele Details, dass man sich leicht für Tage darin verliert. Es braucht also Zeit.

Wir haben mit unseren Texten, die wir von heute an veröffentlichen, versucht, eine Balance zu finden. Sie sollen einen Eindruck vom Denken und Handeln der beteiligten Beamten geben und erklären, warum das Projekt Euro Hawk scheiterte, ja von Anfang an scheitern musste. Unsere Beobachtungen stützen wir mit vielen Zitaten aus den Akten.

Sämtliche Dokumente, aus denen wir zitieren, haben wir bei DocumentCloud hochgeladen, um sie allen Lesern zugänglich zu machen. Der Dienst erlaubt es, Anmerkungen und direkte Links zu einzelnen Sätzen zu hinterlegen. Auch enthält er eine Texterkennung, die aber aus den oben genannten Gründen nur schlecht funktioniert. Zusätzlich zu den zitierten haben wir Dokumente online gestellt, von denen wir glauben, dass sie für das Verständnis des ganzen Vorgangs wichtig sind. In DocumentCloud können sie nach Jahren sortiert werden. Das ermöglicht einen besseren Überblick.

Das Bild, das so entsteht, ist umfassend – vollständig ist es nicht. Von den Tausenden Akten haben wir nur einen kleinen Teil hochgeladen. Geschwärzt sind darin lediglich die Namen der Personen, um ihre Persönlichkeitsrechte zu schützen. Informationen haben wir nicht entfernt.

Noch eine Anmerkung: Die Mehrzahl der Dokumente trägt den Stempel “VS – Nur für den Dienstgebrauch”. Das ist die niedrigste Geheimhaltungsstufe, die deutsche Ämter vergeben. Die wirklich geheimen Informationen hingegen sind höher eingestuft und als “Geheim” gestempelt. Solche Akten waren in den Dateien nicht enthalten.

Kategorien: Datensatz

Tokio in 150 Gigapixeln

Von 8. August 2013 um 10:45 Uhr
Ausschnitt aus einem zoombaren Panoramabild von Tokio, das der Fotograf Jeffrey Martin aus 8.000 Einzelfotos zusammengebaut hat.

Ausschnitt aus einem zoombaren Panoramabild von Tokio, das der Fotograf Jeffrey Martin aus 8.000 Einzelfotos zusammengebaut hat

8.000 Fotos in zwei Tagen und vier Monate Arbeit am Computer hat der Fotograf Jeffrey Martin in ein einziges Bild gesteckt. Das Ergebnis ist ein wunderschönes und atemberaubendes Panorama von Tokio. Es bietet einen Rundumblick vom Tokio-Tower auf die Stadt, vor allem aber ist es zoombar. Wer will, kann mit einer Drehung des Mausrades an jeden Punkt des Bildes fliegen und Details in erstaunlicher Auflösung darin entdecken.

Das Bild zeigt mehr, als der menschliche Betrachter tatsächlich sehen könnte, stünde er auf dem Tokio-Tower. So zahlreich sind die Eindrücke und Blickwinkel, dass man sich problemlos in dem Bild verlieren kann.

Hier ist der Link zum Panorama.

Ausschnitt aus dem Tokio-Panorama von Jeffrey Martin

Ausschnitt aus dem Tokio-Panorama von Jeffrey Martin

Martin hat die 8.000 Einzelfotos im September 2012 mit einer Canon 7D, einer digitalen Spiegelreflexkamera, aufgenommen. Die stand auf einem speziellen, programmierbaren Stativ namens Clauss Rodeon (hier in Arbeit zu sehen). Das drehte die Kamera und machte dabei mehr als ein Bild pro Sekunde. Als Linse verwendete Martin ein Teleobjektiv mit einer Brennweite von 400 Millimetern.

Anschließend wurden die Bilder am Computer montiert. Martin schreibt in seinem Blog dazu, dass Photoshop maximal Bilder mit einer Breite von 300.000 Pixeln bearbeiten könne. Das Tokiobild aber sei 600.000 Pixel breit. Weswegen es auch gar nicht als eine Datei existiere. Er habe es in zwei Einzeldateien bearbeitet, jede davon 100 Gigabyte groß. Der Computer, den er dazu verwendete, hatte 192 Gigabyte RAM, trotzdem sei die Bearbeitung nicht wirklich reibungslos gelaufen.

Orchidee in einem der Fenster des weißen Hochhauses

Orchidee in einem der Fenster des weißen Hochhauses

Das Panorama, das im Netz zu sehen ist, besteht aus mehr als einer Million Bildkacheln, die nachgeladen werden, wenn der Nutzer darauf zoomt. Würde man das Bild in normaler Fotoqualität drucken, wäre es 50 Meter hoch und 100 Meter breit.

Martin hat verschiedene solcher Panoramen gemacht, unter anderem von London. Er nennt sein Projekt 360Cities, jeder kann dort seine Panoramabilder hochladen.

(via Gedankenstiele)

Kategorien: Datenprojekt

Eric Fischers Geodatenwelten

Von 20. Juni 2013 um 12:00 Uhr
Visualisierte Geodaten von Flickr-Fotos in Berlin: blau sind Bilder von Einheimischen, rot zeigt Bilder von Touristen, gelbe Punkte können nicht zugeordnet werden. CC-BY-SA 2.0 Eric Fischer

Visualisierte Geodaten von Flickr-Fotos in Berlin: blau sind Bilder von Einheimischen, rot zeigt Bilder von Touristen, gelbe Punkte können nicht zugeordnet werden. CC-BY-SA 2.0 Eric Fischer

Handys sind Ortungswanzen. Sie zeigen dank GPS-Satelliten und Sendemast-Triangulation, wo wir uns aufhalten. Dienste wie Twitter oder Flickr speichern diese Daten. Und Menschen wie Eric Fischer machen diese Daten sichtbar und damit auch die menschlichen Wege und Vorlieben. Fischer ist Fotograf, Kartenliebhaber und seit einiger Zeit Datenvisualisierer. Und was er aus Flickr und nun auch Twitter herausholt, sieht nicht nur schön aus, es verdeutlicht auch auf einen Blick komplexes Verhalten.

“Locals and Tourists” heißt sein Projekt. Fischer analysiert, wo in Städten der Welt vor allem Einheimische und wo vor allem Touristen twittern und fotografieren.

Zur Analyse von Twitter nutzte er drei Milliarden Tweets aus der Zeit seit September 2011 und sammelte alle heraus, die einen Geo-Tag enthalten, also die Ortskoordinate, an der die Botschaft abgeschickt wurde. Anschließend filterte der diese Botschaften danach, ob sich der Absender schon länger in der Stadt aufhielt oder erst vor Kurzem dorthin gekommen war. Auch das verraten die Geodaten. So konnte er die Stadtpläne in zwei Farben darstellen: blau für Tweets von Einheimischen, rot für die von Touristen.

Das gleiche hatte Fischer zuvor bereits mit Flickr-Daten gemacht, siehe das Bild am Anfang des Textes. Beide Kartensammlungen zeigen, welche Orte einer Stadt bei welcher Gruppe beliebt sind. Hier beispielsweise in New York:

Visualisierung von Twitter-Geodaten. Wo in New York twitterten Einheimische (blau) und wo twitterten Touristen (rot). Eric Fischer/MapBox

Visualisierung von Twitter-Geodaten. Wo in New York twitterten Einheimische (blau) und wo twitterten Touristen (rot). Eric Fischer/MapBox

Noch spannender sind Fischers Projekte, die bei Twitter genutzte Sprachen und die verwendeten Smartphonetypen visualisieren.

Die Karten zu Betriebssystemen zeigen beispielsweise, dass die USA ein iPhone-Land sind, dass Spanien klar von Android dominiert wird und Indonesien von Blackberry. Solche Informationen hatten bis vor kurzer Zeit nur große Konzerne. Fischer nutzt öffentlich verfügbare Daten, um sie allen zugänglich zu machen. Die Daten sind so detailliert, dass sich in ihnen sogar die ringförmige Bauweise des Flughafenterminals von Berlin-Tegel erkennen lässt.

Flughafen Berlin-Tegel, zu sehen sind Geodaten von Tweets, geschrieben mit einem iPhone (rot) und einem Android-Gerät (grün). Eric Fischer/MapBox

Flughafen Berlin-Tegel, zu sehen sind Geodaten von Tweets, geschrieben mit einem iPhone (rot) und einem Android-Gerät (grün). Eric Fischer/MapBox

Und nicht nur das. Sie zeigen beispielsweise auch, dass iPhones vor allem in reichen Gegenden benutzt werden, Androidgeräte eher in ärmeren, wie der Atlantic in den Daten gesehen hat.

Via @msgbi

Wikipedia: Über Israel und Hitler streitet man überall

Von 28. Mai 2013 um 15:21 Uhr
Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Die Wikipedia ist nicht nur eine Enzyklopädie. Sie ist auch ein soziales Experiment. Da sie dank der Zusammenarbeit vieler Menschen entsteht, bietet sie tiefe Einblicke, wer sich wo und wie stark für ein Thema interessiert. Sie ist ein riesiges Testfeld dafür, wie und worüber Menschen miteinander streiten, wie sie sich einigen und wie sie sich organisieren, um zusammenarbeiten zu können.

Mehrere Wissenschaftler haben genau das untersucht. Taha Yasseri, Anselm Spoerri, Mark Graham und János Kertész beobachteten für ihre Studie sogenannte Edit-Wars, Bearbeitungskriege, bei denen streitende Nutzer die Änderungen der Gegenseite immer wieder umschreiben oder gleich komplett rückgängig machen. Sie wollten wissen, ob es regionale Besonderheiten dabei gibt und was diese Debatten über die Menschen aussagen.

Sie taten das nicht nur, um etwas über Streits bei der Wikipedia zu erfahren, sondern auch um die Streitkultur an sich zu erforschen. Dass Religion und Philosophie die am stärksten debattierten Themen sind, wird niemanden verwundern, aber die Analyse lässt sich noch viel weiter treiben. Schon vorangegangene Untersuchungen haben einen Zusammenhang zwischen der Härte von Wikipedia-Debatten und der politischen und wirtschaftlichen Stabilität eines Landes gezeigt.

Was führt zur Eskalation, welche Verfahren fördern einen Konsens, wie organisieren sich die Gegner? All das könne man anhand von Wikipedia-Daten erforschen, schreiben Yasseri, Spoerri, Graham und Kertész in ihrer Studie, die 2014 in einem Buch erscheinen soll.

Weiter…

Kategorien: Datenforschung