Lesezeichen
 

Big Data aus dem Weltall

Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert. Quelle: Skybox
Mikrosatellit SkySat-1 der Firma Skybox, der Livevideos aus dem All liefert Quelle: Skybox

Für alle zugängliche Satellitenbilder? Daran haben wir uns längst gewöhnt. Noch vor ein paar Jahren konnten sich nur Geheimdienste und Regierungen so etwas leisten, inzwischen aber gibt es sie dank Google Earth und anderen Diensten kostenlos für jeden – zumindest statische Aufnahmen der Erde aus dem All.

Nun jedoch sind Satelliten und Kameras so klein und vergleichsweise billig geworden, dass es sich für Unternehmen lohnt, sogar Livebilder aus dem Weltraum anzubieten. Nicht kostenlos, aber für jeden, der bereit ist, dafür Geld zu zahlen.

Zwei Unternehmen arbeiten derzeit daran, eine Flotte von Mikrosatelliten zu starten, um anschließend Fotos und auch Videos von jedem Punkt der Erde auf Bestellung zu verkaufen.

Skybox Imaging ist ein Unternehmen in Palo Alto, Kalifornien. Seit 2009 hat es ungefähr 100 Millionen Dollar Wagniskapital ausgegeben und Satelliten entworfen. Insgesamt 24 will man starten, der erste ist inzwischen im All. Er liefert auf Bestellung 90 Sekunden lange Videos von jedem gewünschten Ort.

Das Sichtfeld der Kamera ist zwei Kilometer mal ein Kilometer groß. Die Auflösung beträgt zwischen 90 und 110 Zentimetern und genügt, um fahrende Autos zu erkennen oder Flugzeugen beim Landen zuzusehen. Für ein Werbevideo ist die Firma beispielsweise über Nordkorea geflogen und hat eine Atomanlage gefilmt.

Looking Down From 600 km Above The Earth’s Surface with HD Video from Skybox Imaging on Vimeo.

Doch das sind nicht die entscheidenden Bilder. Vielmehr machen solche Unternehmen eine neue Form der Datensammlung und Datenauswertung möglich und liefern damit neue Erkenntnisse über den Zustand der Welt und der Wirtschaft.

Natürlich können damit Umweltverschmutzung und Katastrophen genau verfolgt werden: Brandrodung beispielsweise oder Ölteppiche auf dem Meer. Aber solche Themen dürften nur ein eher unbedeutender Teil des Geschäftsmodells sein.

Skybox wirbt damit, beispielsweise den Füllstand von großen Öltanks in Häfen und Raffinerien feststellen und überwachen zu können. Diese Tanks haben ein bewegliches Dach, sind sie voll, ist das Dach weit oben, sind sie leer, ist es unten. Skybox-Kameras schätzen die Füllhöhe und ermöglichen so eine Analyse über Handelsvolumen und Reserven in Ölhäfen.

Skybox wirbt damit, den Containerumschlag in Häfen beobachten zu können und die Zahl von Autos auf einem Parkplatz. Große Firmen und große Einkaufszentren haben große Parkplätze, die Menge der Autos dort sagt etwas über die Höhe der Produktion und die Stärke der Kaufkraft. Auch das Wachstum auf Getreidefeldern könne überwacht werden und damit die Höhe der Erntemengen.

Werden solche Daten zusammengefasst, dürften sie ein ziemlich genaues Barometer der Wirtschaftskraft eines Landes darstellen – in Echtzeit. Wirtschaftskrisen erkennen, Lieferengpässe vorhersagen? Kein Problem. Noch dazu gibt es kaum einen Weg, solche Informationen flächendeckend zu verschleiern. Für Börsenhändler, Finanzberater, Investmentbanken sind solche Daten besser als Gold. Kein Wunder also, dass Skybox viel Kapital sammeln konnte und dass es bereits eine zweite Firma gibt, die das gleiche anbieten will.

Planet Labs hat sogar schon zwei Satelliten gestartet und will insgesamt 28 ins All bringen.

Zusammen mit Drohnen, die ebenfalls immer leichter verfügbar werden, liefern fliegende Kameras völlig neue Einblicke in die Welt. „Big Data. From space„, lautet denn auch einer der Werbesätze von Skybox. Das kann zum Schlechten genutzt werden, zur Überwachung von Bürgern, aber auch zum Guten, um Warenkreisläufe zu verstehen und Probleme vorherzusagen.

Via Wired und @lorz.

 

Niemand weiß, wie viele Migranten es in Deutschland gibt

Anteil von Migranten an der Bevölkerung in den einzelnen Bundesländern / Quelle: ZEIT ONLINE

Manchmal lösen die einfachsten Fragen die größten Irritationen aus. ZEIT ONLINE etwa wollte lediglich wissen, wie viele Menschen mit Migrationshintergrund in welchem Bundesland leben. (Man kann sich an dem Ausdruck stören oder ihn albern finden, aber er umfasst alle diejenigen, die als Migranten wahrgenommen werden, unabhängig von ihrer Staatsangehörigkeit). Wir hatten mit einem Zeitaufwand von einer halben Stunde gerechnet. Daraus wurden drei Wochen.

Menschen mit Migrationshintergrund sind hierzulande ein Politikum. Alle reden über sie, ziehen diesen Begriff für allerhand Vergleiche heran – doch niemand weiß, wie viele damit genau bezeichnet werden. Hier die Geschichte unserer Recherche.

Als Antwort auf die obige Frage wurde uns vom Statistischen Bundesamt mitgeteilt, genaue Zahlen könnten nur für die alten Bundesländer angegeben werden. Für fünf Bundesländer gebe es sie nicht. Zitat: „590.000 Personen mit Migrationshintergrund lebten 2010 zusammengenommen in den Neuen Bundesländern.“

„Die Zahlen gibt es nicht“

Für eine genauere Aufschlüsselung dieser Zahl verweist man an die fraglichen fünf Statistischen Landesämter. Doch keines davon will mehr sagen als diese eine pauschale Zahl für alle zusammen. Eine Aufschlüsselung der Migranten für jedes Bundesland ist angeblich nicht erhältlich.

Dass das nicht ganz stimmt, lässt eine interne Mail vermuten, die ganz offensichtlich aus Versehen an uns geschickt wird. Denn sie legt nahe, dass diese Pauschalzahl eine Verabredung ist: Diese unsere Anfrage „ist wahrscheinlich an alle neuen Bundesländer gegangen; werden Sie koordinieren?“, heißt es da aus Thüringen. Und: „Sicherlich ist die Datenlage in unseren Ländern ähnlich ‚dünn‘.“ Dass das „dünn“ in Anführungszeichen steht, bietet viel Spielraum für Spekulationen. Die Antwort aus Brandenburg lautet: „ja ich werde dem Journalisten mitteilen, dass es keine Daten für die einzelnen NBL [Neue Bundesländer, Anm. d. Autors] gibt.“

Soll das etwa heißen, dass die Zahlen existieren, aber nicht an die Öffentlichkeit kommen sollen? Wir sind verwundert und fragen weiter: Bei den Statistikämtern und beim für sie zuständigen Bundesinnenministerium.

Und tatsächlich, die Zahlen existieren. Hier zu sehen als Google Fusion Table.

Sie werden bei der jährlichen Erhebung von Bevölkerungsdaten, dem sogenannten Mikrozensus, detailliert und methodisch erfragt, sollen jedoch nicht öffentlich verwendet werden. Offiziell lautet der Grund für die Nicht-Veröffentlichung, der uns nun genannt wird: Zu kleine Fallzahlen, daher zu große Fehlerwahrscheinlichkeit nach der Hochrechnung.

Beim Mikrozensus wird jährlich ein Prozent der Haushalte in Deutschland von den Statistischen Landesämtern befragt. Die Ergebnisse dieser Befragung werden auf das jeweilige Land hochgerechnet – grob gesagt: mit 100 multipliziert. Ausnahme: Ein abgefragter Fall tritt zu selten auf, was natürlich in bevölkerungsschwachen Bundesländern häufiger vorkommt. Dann wird allerdings nicht im Einzelfall nach Lust und Laune entschieden. Vielmehr gibt es einen klar definierten einheitlichen Schwellenwert. Dagmar Ertl vom Statistischen Amt Saarland erklärt:

Es gibt sie doch, aber sie sind ungenau

„Bei Stichprobenerhebungen wie dem Mikrozensus treten zufallsbedingte Fehler auf. Das sind Abweichungen, die darauf zurückzuführen sind, dass nicht alle Einheiten der Grundgesamtheit befragt wurden. Als Schätzwert für den zufallsbedingten Stichprobenfehler dient der so genannte Standardfehler, der aus den Einzeldaten der Stichprobe berechnet wird. Für hochgerechnete Jahresergebnisse, das heißt für weniger als 50 Fälle in der Stichprobe geht der einfache relative Standardfehler über 15 Prozent hinaus. Solche Ergebnisse haben nur noch einen geringen Aussagewert und sollten deshalb für Vergleiche nicht mehr herangezogen werden. Hochgerechnete Besetzungszahlen unter 5.000 werden demzufolge nicht nachgewiesen und in Veröffentlichungen des Mikrozensus durch einen Schrägstrich („/“) ersetzt.“

Aus diesem Grund tauche etwa die Bevölkerungsgruppe der Über-95-Jährigen in Hamburg nur als „/“ in Veröffentlichungen auf, sagt Dr. Jürgen Delitz vom Statistikamt Nord (Hamburg / Schleswig-Holstein). Diese Gruppe sei schlicht zu klein.

Die Gruppe der Menschen mit Migrationshintergrund in den Neuen Bundesländern indes ist mit den genannten 590.000 größer als eine halbe Million Menschen. Selbst in Mecklenburg-Vorpommern leben laut der internen Statistik hochgerechnet 77.000 von ihnen – deutlich mehr also als die geforderten 5.000.

Auf erneute Nachfrage argumentieren die Behörden plötzlich mit der relativen Zahl, die zu gering sei, um sichere Aussagen zu treffen. In der Tat beträgt die Quote der Menschen mit Migrationshintergrund im Osten knapp fünf Prozent. Im Westen sind es rund 22 Prozent.

Das Statistische Landesamt Saarland bestätigt allerdings das Naheliegende: Mit dem absoluten Schwellenwert 5.000 seien „auch potenziell niedrige relative Fallzahlen abgedeckt“.

Prof. Dr. Walter Krämer, Statistikprofessor an der TU Dortmund, kritisiert uns gegenüber die Nicht-Veröffentlichung detaillierter Zahlen als nicht nachvollziehbar: „Die wahren Motive der Datenproduzenten sind für mich ein Mysterium.“ Für uns auch, wir fragen weiter, unsere Mails erreichen immer höhere Ränge der Bürokratie, wie wir an den Absendern sehen.

„Migranten sind untererfasst“

Schließlich taucht ein neues Argument auf. Per Mail erklärt das Statistische Bundesamt: „Die nichtdeutsche Bevölkerung wird zudem gegenüber der deutschen Bevölkerung im Mikrozensus untererfasst. Diese Untererfassung ist in den Bundesländern Brandenburg, Mecklenburg-Vorpommern, Sachsen, Sachsen-Anhalt und Thüringen deutlicher ausgeprägt, als in den anderen Bundesländern. Teilweise erreicht die Untererfassung das Dreifache im Vergleich zur regulären Auswahl. In diesen Fällen wird in dieser Bevölkerungsgruppe nicht jeder hundertste, sondern nur jeder dreihundertste befragt.“

Die Nichtveröffentlichung wird in dieser Mail auch nicht mehr allein mit der Fehlerquote erklärt, sondern mit „methodischen Gründen“: „Aufgrund der vorstehend genannten Sachlage und der daraus resultierenden geringeren Datenqualität haben sich die Statistischen Landesämter von Berlin-Brandenburg, Mecklenburg-Vorpommern, Sachsen, Sachsen-Anhalt und Thüringen aus methodischen Gründen dazu entschlossen – unabhängig von der Höhe eines statistischen Schwellenwertes – keine Ergebnisse aus dem Mikrozensus für Ausländerinnen und Ausländer und Personen mit Migrationshintergrund auf der Ebene der einzelnen Bundesländer zu publizieren.“

Es folgen weitere Erläuterungen, unter anderem vom Landesamt für Statistik in Brandenburg, die sich auf die „Klumpenform“ der Befragungsbezirke beim Mikrozensus beziehen. In Kurzform besagen sie, dass die Methode des Mikrozensus nicht dazu taugt, Menschen mit Migrationshintergrund korrekt zu zählen. Die Daten, die bei dem Verfahren herauskommen, seien zu ungenau, zu schlecht. Zufällige Befragung und Hochrechnungen kämen hier an ihre statistische Grenze. Was zur Frage führt, ob solche grundlegenden Probleme dann nicht für all diese Zahlen gelten, also auch für die 590.000 und für die Angaben zu den alten Bundesländern…

Das Bundesamt verweist anschließend auf das Ausländerzentralregister. Dort gebe es Zahlen, die „nicht mit den oben genannten Datenqualitätsproblemen behaftet sind“. Zum Schluss gibt es noch einen Link. Es ist dieser hier.

Tatsächlich stehen dort detaillierte Angaben zu den einzelnen Bundesländern. Aber erfasst werden nur „Ausländer“, also jene, die keinen deutschen Pass haben. Wir jedoch wollten wissen, wie viele Menschen als Migranten gelten – was auch Menschen meint, deren Eltern vielleicht einst einwanderten, die aber Deutsche sind.

Obwohl in der Öffentlichkeit dauernd von diesen Migranten die Rede ist, weiß hierzulande also offiziell niemand, auf wie viele Menschen diese Bezeichnung zutrifft. Wir haben daher die „schlechten“ Zahlen der Statistikämter in unserer Grafik veröffentlicht. Mögen sie als vage Schätzung dienen.

 

Schwimmende Drohnen sammeln Daten im Ozean

"Wave Glider", ein autonomer Roboter zum Datensammeln, dessen im Wasser hängende Paddel die Wellenbewegung in Vortrieb umwandeln Quelle: http://liquidr.com/

Das folgende Projekt ist nur zum Teil offen, es steht also nicht vollständig der Allgemeinheit zur Verfügung. Doch es beschäftigt sich mit Daten – und zeigt dabei, wohin sich das Thema Datensammeln bewegt.

Es geht um den sogenannten Wave Glider, einen autonomen Roboter, der allein durch Wellenbewegungen angetrieben wird und sich dadurch lange Zeit auf dem Meer herumtreiben kann. Die Technik hat schon Preise gewonnen und befindet sich derzeit in einem Langzeittest.

Golem hat ein Videointerview mit Suneil Thomas veröffentlicht, dem Vizepräsidenten des Herstellers Liquid Robotics. Denn darin sagt er, worum es den Entwicklern geht: Der Wave Glider revolutioniere die Kosten des Datensammelns auf See, so Thomas, da er keine Besatzung brauche und keinen Treibstoff. „Und diese Daten werden unser Verständnis über die Ozeane verbessern.“

 

Autonome Systeme sind beim Sammeln beispielsweise von Wetterdaten längst selbstverständlich. Und auch in den Meeren wird seit langer Zeit beobachtet, ohne dass Menschen dabei sind. Bislang vor allem mit verankerten Bojen, an Tieren befestigten Messgeräten oder durch Zufälle, wie Tausende herumtreibende Plastikenten.

Roboter wie der Wave Glider sind ein neuer Weg. In der Luft wird dieser schon beschritten. Sogenannte Drohnen können Stunden bis Tage am Himmel kreisen, um ganze Regionen zu beobachten. Berichtet wird über sie derzeit vor allem im Zusammenhang mit Kriegen, da Armeen weltweit mehr und mehr dieser Flugroboter einsetzen und damit ein heftiges Für und Wider auslösen. Doch gibt es auch verschiedene zivile Projekte, die sie nutzen.

Nun ist das Meer dran. Der Wave Glider wird angetrieben vom Hub der Wellen. Der bewirkt, dass sich Paddel heben und senken, die sieben Meter unter der an der Wasseroberfläche schwimmenden Plattform hängen. Diese Paddel sorgen für Vortrieb. Solarpaneele auf dem Deck liefern Strom für die Messgeräte und die Kommunikation.

Die Schwimmdrohne hat mehrere Langstreckentests absolviert und gezeigt, dass sie funktioniert. Garantiert wird sich daher bald auch das Militär für die Technik interessieren. Bislang aber waren ihre Einsätze friedlich. Entwickelt wurde sie ursprünglich, um die Kommunikation von Walen aufzuzeichnen.

Beim aktuellen Test, der Überquerung des Pazifiks, sammeln die vier eingesetzten Wave Glider verschiedene Daten wie Wetterbedingungen, Wassertemperatur, Salz- und Sauerstoffgehalt und Wellenhöhe. Das Unternehmen stellt diese Informationen, schätzungsweise 2,25 Millionen Datenpunkte, jedem Interessierten zur Verfügung. Heruntergeladen werden können sie nach einer Registrierung hier.

 

Weltraum für alle

Der Trend geht wieder zur Marke Eigenbau. Auf Portalen wie Helloetsy oder DaWanda kann man handgemachte Unikate kaufen. Jenseits der Massenware sind Schreibtischlampen aus Heimarbeit, selbstgestrickte Kinderhosen, Geldbörsen aus Recyclingmaterial oder handverzierte Haarspangen die Bestseller. Raketen und Raumschiffe sucht man aktuell noch vergebens. Aber das könnte sich ändern. Denn die Nasa hat auf open.nasa.gov jetzt data.nasa.gov gestartet. Dort kann man unter anderem erfahren, aus welchen Materialien Raketen und Raumschiffe idealerweise gebaut werden sollten.

Die Datenmengen, die die Nasa auf data.nasa.gov ausliefert, sind exorbitant. Allein die Mission Earth Observing System Data and Information System (EOSDIS) hat mittlerweile ein Datenvolumen von drei Petabyte. Das entspricht in etwa der gesamten Datenmenge aller in der amerikanischen Library of Congress gespeicherten Inhalte. Und täglich kommen schlappe vier Terabyte hinzu. Eine weitere Mission, das Solar Dynamics Observatory, produziert täglich mehr als 1,5 Terabyte an Daten. Das sind mal eben knapp 500.000 Songs im MP3-Format.

Um diese Datenmengen erfassbar und einem breiten Publikum zugänglich zu machen, versucht die Nasa die Datensätze nun thematisch zu sortieren. Lagen zahlreiche Datensätze auch bisher auf diversen Nasa-Seiten öffentlich vor, sollen sie durch eine Bündelung im data.nasa.gov-Katalog nun übersichtlicher und zentralisiert aufrufbar sein. In neun Themenbereiche werden die zugänglichen Daten dabei untergliedert. Zu ihnen zählen unter anderem die Bereiche Erdbeobachtung, Aeronautik, Kosmologie, Life Sciences und Engineering.

Bereits 2010 hatte die Nasa im Rahmen der Open Government Initiative diverse Daten auf data.nasa.gov bereit gestellt. Aber erst jetzt können die Schätze systematisch durchsucht werden. An einem Ort. Allerdings sind die Angebote mehr als disparat. So sind manche überhaupt nur nach stundenlanger Recherche zu finden.

Um das Angebot weiterzuentwickeln, bietet data.nasa.gov dem User die Möglichkeit, die Bestände zu kommentieren oder in der Flut entdeckte Daten zu verlinken oder hochzuladen.

Wenn also erste Erfahrungen mit dem Eigenbau von Raumfahrzeugen vorliegen, können sie gerne der Nasa zu weiteren Verwendung übersandt werden.

 

Die schlaue Parkuhr

parking situation sfpark
Sensoren-Parkplätze: Monatlich wird der Preis für das Parken angehoben oder gesenkt

Parkplätze sind in San Francisco rar und dementsprechend teuer. Ein Tag im Parkhaus kann 30 Dollar und mehr kosten, Parkplätze von Hotels sogar leicht das Doppelte dessen. Das Projekt SFpark will daher die begrenzte Ressource nahezu in Echtzeit organisieren. In sechs Vierteln von San Francisco befinden sich nun im Teer von rund 7.000 Parkplätzen Sensoren. Das sind etwa ein Viertel aller mit Parkuhren ausgestatteten Parkplätze in der Stadt. Diese Sensoren sind mit der Parkuhr gekoppelt, die via Internet bekannt gibt, ob der Platz besetzt oder frei ist.

Die Idee: Gemeldet wird nicht nur ein freier Parkplatz. Je nach registrierter Nachfrage schwankt auch der Preis, der an der Parkuhr zu entrichten ist. „Nachfrage-orientierte Preise ermutigen Fahrer, in weniger genutzten Gegenden sowie Parkhäusern zu parken und somit viel genutzte Gegenden zu entlasten“, heißt es in der Selbstdarstellung. Einmal im Monat wird die Nachfrage in den vorherigen 30 Tagen ermittelt und der Stundenparkpreis dementsprechend angepasst. Die Obergrenze liegt derzeit bei 3,50 Dollar pro Stunde. Er kann allerdings bis auf 6 Dollar steigen und zu besonderer Veranstaltungen, etwa Straßenfesten, kurzfristig bis auf 18 Dollar pro Stunde angehoben werden.

Gleichzeitig steigt die mögliche Parkdauer. Normalerweise darf an Parkuhren in der Stadt zwei Stunden lang ein Auto abgestellt werden. Bei Sensor-Parkplätzen sind es vier Stunden, an einigen ist gar eine unbegrenzte Parkzeit erlaubt. Nicht über die Zeit also soll die Fluktuation geregelt werden, sondern über das Geld.

Weiter„Die schlaue Parkuhr“

 

Malte Spitz‘ Vorratsdaten: Der Datensatz unter der Lupe

vorratsdaten bewegungsprofil
Spuren: Deutschlandweites Bewegungsprofil in Reinform

Der Grünenpolitiker Malte Spitz ist viel unterwegs. Er nutzt soziale Netzwerke, um über sich und seine Arbeit beim Bundesvorstand der Partei zu berichten, und er schaltet selten sein Mobiltelefon aus. Die sechs Monate Vorratsdaten, die er ZEIT ONLINE  zur Verfügung gestellt hat, bedeuteten daher 35.830 aufgezeichneten Verbindungen – ein eindeutiges Bewegungsprofil.

Spitz hatte im August 2009 die Herausgabe seiner Daten eingeklagt. Er hatte Erfolg und die Telekom übergab ihm sechs Monate seiner Vorratsdaten von August 2009 bis Februar 2010. Wir veröffentlichen ihn hier als Google Doc (ohne die Telefon-, Geräte- und Kartennummern von Spitz).

Nicht enthalten sind die Telefonnummern der Anrufer und Angerufenen. Der Provider T-Mobile hatte sie vor der Herausgabe entfernt, da inzwischen das Bundesverfassungsgericht die Vorratsdatenspeicherung gestoppt hatte. Damit ist mit diesem Datensatz nicht möglich, was Ermittler vor allem wollen: Das Ausforschen und Beobachten sozialer Beziehungsnetze.

Dennoch sind die Daten spannend. Zusammen mit Michael Kreil, der mit Ideen und Können die Programmierung übernommen hat, habe ich die interaktive Karte zu den Vorratsdaten hier auf ZEIT ONLINE umgesetzt.

Weiter„Malte Spitz‘ Vorratsdaten: Der Datensatz unter der Lupe“