Offene Daten – offene Gesellschaft
Kategorie:

Datenquelle

Neues Wissen aus alten (Telefonbuch-)Daten

Von 21. März 2014 um 09:36 Uhr
Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Umzugskarte von Berlin, blaue Bezirke haben eine hohe Abwandererqoute, braune viele Zuzügler, Quelle: mappable.info

Daten verbrauchen sich nicht. Mit neuen Fragen lassen sich auch aus alten Daten immer wieder neue Erkenntnisse gewinnen. Patrick Stotz und Achim Tack liefern dafür mit ihrem Projekt Mappable ein Beispiel.

Sie haben alte Telefonbücher aus den Jahren 2004 bis 2012 gekauft und die Daten aus Berlin genutzt, um darin nach Menschen zu suchen, deren Adresse sich im Laufe der Zeit geändert hat. 50.000 haben sie eindeutig identifizieren können, schreiben sie in ihrem Blog zu dem Projekt. Die Umzüge dieser 50.000 innerhalb der Stadt haben sie anschließend auf einer Karte visualisiert. Die Karte zeigt nun, wohin die Menschen in Berlin ziehen.

Das erzählt einiges darüber, wie die Stadt funktioniert.

Demnach ziehen aus den Bezirken Kreuzberg und Neukölln die meisten Menschen weg. Beide sind auf der Karte tiefblau, was für eine hohe Netto-Abwanderung spricht. Gleichzeitig schrumpft die Bevölkerung dort jedoch nicht und aus Berlin selbst ziehen wenige Menschen dorthin. Was bedeutet, dass beide so etwas wie ein Hafen für Einwanderer sind. Offensichtlich ziehen viele, die nach Berlin kommen, erst einmal dorthin. Kreuzberg und Neukölln gelten als spannend, bunt und zentral, die Mieten sind insgesamt trotzdem vergleichsweise niedrig. Entweder verdrängt der Zuzug viele der Alteingesessenen, oder die Neubewohner überlegen es sich später anders und wandern in andere Bezirke weiter.

Den größten Netto-Zuzug in Berlin hat Zehlendorf, ein reicher und ruhiger Bezirk im Südwesten. Die meisten Zuzügler kommen aus Wilmersdorf, Charlottenburg und eben aus Kreuzberg. Das würde die These des Einwanderer-Hafens stützen.

Das ist ein für viele Großstädte klassisches Muster: Junge Menschen ziehen in die Innenstadt, wenn sie für Beruf oder Studium kommen. Wenn sie älter werden, suchen sie ruhigere und auch teurere Bezirke am Rand. Mappable belegt diese Theorie. Und die Telefonbuchdaten erlauben es sogar, das genauer zu tun als die offizielle Statistik. Die kennt als kleinste Ebene nur den Stadtbezirk. Mappable bricht die Daten auch auf Ortsteile herunter und kann damit ein granulares Bild zeichnen.

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Blaue Pfeile zeigen Menschen, die aus Kreuzberg wegziehen, braune Pfeile zeigen Zuzügler, Quelle: mappable.info

Es ist nicht das erste Mal, dass Telefonbücher als Datenquelle genutzt werden, um soziologische Aussagen zu treffen. Aber die Umzugsanalyse ist ein interessanter Ansatz. Die beiden Entwickler sind optimistisch, dass sie mit ihrer Idee eine neue Datenquelle erschlossen haben. In ihrem Blog schreiben sie:
“To sum things up: we are quite enthusiastic about the potential of phone directories as a data source and there are definitely more research questions that can be answered with these data sets besides only migration patterns (e.g. monitoring gentrification processes, identifying ethnicity patterns).”

Kategorien: Datenquelle

Wenn die Temperatur sinkt, steigt der (Porno)-Traffic

Von 13. Januar 2014 um 15:30 Uhr

Pornografie ist im Internet der “elefant in the room”, wie man im Englischen sagt: riesig und unübersehbar, trotzdem redet kaum jemand über ihn. Auch, weil es kaum Daten gibt, die etwas darüber aussagen, wie riesig der Elefant wirklich ist.

Dabei sind solche Daten nicht uninteressant, wenn es sie denn mal gibt. Schließlich galt die Pornobranche lange Zeit als wichtiger technischer Vorreiter im Netz, auch wenn sie in dieser Rolle inzwischen von Sozialen Netzwerken abgelöst wurde. Der Anbieter Pornhub bietet solche Zahlen. Seit Sommer 2013 betreibt er ein Blog namens Insights, auf dem unter anderem Statistiken veröffentlicht werden.

Eine davon zeigt, wie die Amerikaner auf die jüngste Kältewelle reagiert haben: Sie haben mehr Pornos geguckt. In Maine, Michigan und Florida zum Beispiel waren es rund 40 Prozent mehr als sonst im Januar.

Nicht immer und überall bringt der Winter einen erhöhten Pornokonsum mit sich: Japan ist die einzige Region, in der das Weihnachtsfest keine Auswirkung hat (Siehe unter Holidays, Christmas Eve). Und Silvester muss einer der schlechtesten Tage für die Branche sein, da interessiert sich offensichtlich kaum jemand für sie.

Eine andere Statistik zeigt, wie verbreitet die mobile Internetnutzung in welchen Ländern ist: Deutschland ist demnach noch immer Desktop-Land. Nur sieben Prozent nutzen Tablets, nur 21 Prozent Smartphones (bei ihrem Pornokonsum). International ist das wenig, in den USA oder Großbritannien ist die mobile Nutzung bereits sehr viel verbreiteter.

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Mobile Nutzung der Pornoseite Pornhub in verschiedenen Ländern 2012 und 2013. Quelle: http://www.pornhub.com/insights

Noch also haben deutsche Unternehmen etwas Zeit, sich auf mobile Geräte einzustellen. Allerdings nicht sehr viel. Die Desktop-Nutzung ist in Deutschland von 2012 auf 2013 um zehn Prozentpunkte gefallen.

Weltweit gilt: Montag ist Pornotag, dann hat Pornhub die höchsten Zugriffe, an Sonntagen die geringsten. Offenbar wird genau das dann am Montag nachgeholt.

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Dauer der Pornonutzung in den USA sortiert nach der Höhe des Einkommens. Quelle: http://www.pornhub.com/insights/high-vs-low-income-cities/

Auch die Frage, ob in ärmeren oder in reicheren Gegenden länger Pornos konsumiert werden, kann das Portal beantworten. Es sind vor allem die Bewohner ärmerer Städte, die länger schauen.

PornHub gehört wie Youporn und viele andere Netzangebote zu dem Firmengeflecht von Mindgeek, einem Unternehmen mit Sitz in Luxemburg, das bis 2013 Manwin hieß. Und selbstverständlich ist das Veröffentlichen solcher Trafficdaten auch eine Form von Marketing, wie das amerikanische Magazin Slate anmerkt.

 

Kategorien: Datenquelle

Wie sich die Einnahmen für die Lkw-Maut verteilen

Von 26. März 2013 um 10:20 Uhr

Die Maut für Lastkraftwagen und die Verteilung der Einnahmen gehören nicht zu den transparentesten Dingen in Deutschland. Wer mehr über sie wissen will, muss explizit danach fragen, was wir über Frag den Staat gemacht haben. Einnahmen von 4,36 Milliarden Euro kamen 2012 demnach zusammen, plus 205 Millionen Euro Überschuss aus dem Jahr 2010.

Der Überschuss von 2010 ist aufgeführt, weil er nach einer Pufferzeit von zwei Jahren in den Haushalt eingestellt wird. Insgesamt brachte die Maut also etwas mehr als 4,5 Milliarden Euro – das klingt viel. Vergleicht man allerdings die Einnahmen mit dem Plan, also der Summe, die im Bundeshaushalt 2012 als Einnahme vorgesehen war, ist es nicht so viel. Es waren 250 Millionen Euro weniger, als der Finanzminister gehofft hatte. Auch 2011 war die Wirklichkeit schon hinter den Plan zurückgefallen.

Interessant ist, wie sich die Einnahmen verteilen, vor allem welcher Betrag tatsächlich in den Straßenbau investiert wird. Denn das war die Begründung, mit der die Lkw-Maut einst eingeführt wurde. 2012 wurden knapp 3,4 Milliarden Euro für Investitionen ausgegeben. Wofür genau lässt sich derzeit nicht sagen, da über die einzelnen Ausgaben noch keine Zahlen vorliegen. Der Verteilungsschlüssel sieht laut Bundeshaushalt 2012 aber vor, dass rund 40 Prozent davon in den Erhalt von Autobahnen fließen sollten, weitere 25 Prozent in “Bedarfsplanmaßnahmen”, also den Neubau von Autobahnen.

Wie steht es um die “Betreiber-Vergütung”, also den Betrag, den das Toll-Collect-Konsortium jedes Jahr kassiert? 2012 betrug er laut IFG-Anfrage 489 Millionen Euro, im Haushaltsplan waren 577 Millionen vorgesehen. Im Vorjahr waren sogar 713 Millionen Euro geplant, de facto wurden es 545 Millionen. Das Konsortium nimmt also weniger ein, als ursprünglich erhofft. Je nach Berechnungsgrundlage ist der Anteil der “Betreiber-Vergütung” zwischen elf und zwölf Prozent groß (Basis 1: faktische Gesamteinnahmen; Basis 2: ohne gesperrte Haushaltsmittel).

Randnotiz: 2011 war die geplante Betreibervergütung höher als die gesamten Systemkosten, die 663 Millionen Euro betrugen.

Und der Rest des Geldes? Ein erheblicher Teil, jährlich 150 Millionen Euro, geht in Ausgleichszahlungen an die Länder. Denen entgehen Steuereinnahmen, da mit Einführung der Maut die Lkw-Steuern gesenkt wurden. Der Bund steckt außerdem Geld in emissionsärmere Lkw (Abkürzung im Diagramm: “C02″), in Aus- und Weiterbildung, in Transportlogistik, was auch ein “Klein-Beihilfe-Programm” (De-Minimis-Programm) umfasst. Hier eine Übersicht:

Nun kümmert sich auch die bundeseigene VIFG GmbH (jährliche Kosten gut drei Millionen Euro) darum, die Einnahmen und Ausgaben aus der Maut möglichst transparent darzustellen. Mit mittelmäßigem Erfolg. In ihrer Darstellung fehlen nach Angaben des Unternehmens VIFG insgesamt 360 Millionen Euro. Davon stammen 110 Millionen Euro aus der Haushaltssperre 2012 und weitere 250 Millionen Euro sind “Einbehalte” des Verkehrsministeriums.

Demnach stehen “2012 rund 3.245 Milliarden Euro Mautmittel für den nutzerfinanzierten Bau und Erhalt der Bundesfernstraßen zur Verfügung”, wie die VIFG schreibt. In ihren weiteren Grafiken tut die Gesellschaft allerdings so, als sei weiterhin der ursprüngliche Betrag von 3,6 Milliarden Euro verfügbar und listet entsprechende Einzelposten auf. Vor allem aber dröselt sie nur die geplanten Einnahmen und Ausgaben auf, die immerhin 250 Millionen Euro von der Wirklichkeit abweichen.

Unser genauerer Blick in die tatsächlichen Einnahmen- und Ausgaben 2012 führt zu einem interessanten Ergebnis: Obwohl die Gesamteinnahmen 250 Millionen Euro unter Plan lagen, investierte der Bund mit 3,391 Milliarden Euro knapp 145 Millionen Euro mehr in die Straßen als ursprünglich vorgesehen. Woher das Geld kommt, ist unklar. Das stammt nicht aus den 205 Millionen Euro Überschuss des Jahres 2010, denn die waren im Plan 2012 bereits vorgesehen, genau wie die Haushaltseinsparungen von 360 Millionen Euro.

Was während der Analyse in den Bundeshaushalten beziehungsweise den Haushaltsrechnungen (Ist-Ausgaben) auffiel: Die Lkw-Maut wurde 2012 erstmals als einzelner Gesamtposten ausgewiesen, inklusive Kosten für Verwaltung und Personal. Davor waren die Personal- und Sachkosten an verschiedenen Stellen im Vekehrshaushalt verteilt, unter anderem liefen sie unter “Schifffahrt” mit. Dadurch ist eine Suche nach den Zahlen fast unmöglich.

P.S: Wir freuen uns, mit der ganz frisch aktualisierten Version von Datawrapper zu arbeiten. Super Update! @ Mirko, Gregor, Nicolas et al.

Disclaimer: Michael Hörz ist Mitarbeiter von FragDenStaat.

Kategorien: Allgemein, Datenquelle

Wie viele Deutsche sterben im Ausland?

Von 8. Februar 2013 um 10:54 Uhr

Das Auswärtige Amt führt keine Statistik zur Zahl der Deutschen, die im Ausland gestorben sind. Zumindest keine offizielle, regelmäßig veröffentlichte Statistik. Zahlen gibt es aber trotzdem, wie eine Anfrage eines Nutzers von Frag den Staat zeigt.

Demnach erfasste das Ministerium im Jahr 2011 nach eigener Aussage 946 Todesfälle, im Folgejahr 1072. Nicht alle Todesfälle würden den jeweiligen Vertretungen gemeldet, schreibt das Ministerium. Daher seien die gelieferten Zahlen nur “die dem AA [Auswärtiges Amt] bekanntgewordenen Todesfälle deutscher Staatsangehöriger im Ausland”. Die Listen umfassen Alter, Geschlecht, diplomatische Vertretung, Land, Kontinent und Todesursache.

Solche internen Statistiken können Unstimmigkeiten enthalten. In den Datensätzen fanden sich zum Beispiel mehrmals die Kontinente “Südamerika” und “Zentralasien”, obwohl sonst nur die grobe Unterteilung Europa, Asien, Amerika und Australien [+Ozeanien] besteht. Nach dem Aufräumen der Daten aber gibt es einiges zu erfahren. Die folgende Grafik zeigt, wie sich 2011 und 2012 die Todesfälle in Altersgruppen verteilen.

Wie verhält es sich in den beiden Jahren mit der Todesursache? Die am häufigsten genannte Ursache ist für 2011 ein natürlicher Tod, knapp dahinter kommt “ungeklärt”. Dieses Verhältnis verkehrt sich für 2012, in mehr als der Hälfte der Fälle ist die Ursache ungeklärt. Gewaltverbrechen machen nur einen winzigen Anteil aus, 18 Fälle im Jahr 2011 und 13 im Folgejahr.

Ein Blick auf die Kontinente bringt nicht so viel, den die Einteilung ist relativ grob – unter Asien fällt alles von Israel bis Japan. Jedenfalls starb 2012 ziemlich genau die Hälfte der Personen in Europa, ein knappes Viertel in Asien (540 bzw. 280. Gesamtzahl: 1080). 2011 sieht es fast genauso aus, 460 starben in Europa, 250 in Asien (Gesamtzahl: 950).

Dabei stechen einzelne Länder deutlich hervor. Spanien macht in Europa 2012 mit Abstand den größten Teil aus, gut 170 von 540 Fälle. Auch der relativ große Anteil von Asien ist einen näheren Blick wert. Dort sind es vor allem zwei Länder – Thailand mit rund 110 Fällen und die Philippinen mit knapp 60 Fällen (Asien gesamt: 280). Auch für 2011 zeigt sich ein solches Bild: 130 von 460 Fällen in Europa fallen auf Spanien, auf Thailand kommen 100, auf die Philippinen 60 Fälle (Asien gesamt: 250). Die erste Vermutung lautet: Es handelt sich vorwiegend um ältere Menschen, die ihr Rentnerdasein außerhalb Europas verbringen. Deswegen habe ich für diese drei Länder die Zahlen nach Altersgruppen dargestellt.

Die Verteilung ist hier ziemlich deutlich – vor allem Menschen jenseits der 50 waren in diesen Ländern, als sie starben. Ein Blick auf den Anteil von Männern und Frauen ist ziemlich eindeutig. Dafür habe ich für dieselben drei Länder nur die Menschen über 50 ausgewählt:

In Spanien sind zwei mal so viele deutsche Männer gestorben wie Frauen, in den anderen beiden Ländern ist der Frauenanteil nahezu vernachlässigbar.

Fazit: Der Datensatz enthält interessante Details, und ohne die Anfrage des Nutzers hätten die Zahlen nie das Auswärtige Amt verlassen. Von einem Bundesministerium hätte ich allerdings etwas mehr Ordnung bei den Eingaben erwartet. So landet Teneriffa in der Länderliste, ebenso “Kurdistan” oder “Lagos”. Häufig werden auch in selben Jahr Länder unterschiedlich geschrieben, etwa als “China” und “VR China”. Ich gehe auch davon aus, dass der Bearbeiter der Liste die Fälle unsauber gezählt hat, etwa mit Formeln, die nur Zahlen und keine Texteingaben berücksichtigen, was erklären könnte, dass die Tabellen entgegen dem Bescheid jeweils etwas mehr Einträge enthalten: 949 statt 946 (2011) und 1080 statt 1072 (2012).

Disclaimer: Dieser Beitrag erscheint zugleich auf dem Blog von Frag den Staat.

Kategorien: Allgemein, Datenquelle

Google veröffentlicht Karten von Nordkorea

Von 29. Januar 2013 um 16:12 Uhr
Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Im Programm Google Earth, das Satellitenbilder der Welt sammelt, war Nordkorea schon lange kein weißer Fleck mehr. Seit Jahren gibt es ein Projekt, das versucht, mehr Informationen über das abgeschottete Land zu sammeln und bei Google Earth einzustellen. Nun sind solche Informationen auch bei Google Maps zu sehen, wo Nordkorea bislang noch terra incognita war.

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Seit Dienstag bietet Google Maps ein vergleichsweise detailliertes Bild des kommunistischen Landes. Gebäude, Straßen, Gulags – was bislang nur in der Software zum Herunterladen zu sehen war, ist nun auch in der Kartenanwendung sichtbar. Dort sind die Bilder zusätzlich mit Straßennamen versehen, oft auf Koreanisch, manchmal aber auch auf Englisch.

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Die Daten sind eine Mischung aus den üblichen Satellitenbildern und Informationen, die Nutzer beigetragen haben. Google bietet ein Programm, mit dessen Hilfe jeder die Karten aktualisieren kann.

Die Schwierigkeit ist, zu bewerten, ob die Daten korrekt sind. Schließlich gibt es keine offiziellen Karten Nordkoreas, mit denen die Angaben verglichen werden könnten. Die Software arbeitet daher so ähnlich wie die Wikipedia – Daten, die ein Nutzer einstellt, können von anderen korrigiert werden. Je mehr bei solchen Projekten mitmachen, desto besser ist die Qualität der gesamten Daten. Im Fall Nordkorea ist das durchaus ein Problem, nicht viele Menschen haben Gelegenheit, das Land zu besuchen.

Im Firmenblog der Kartenanwendung heißt es: “We know this map is not perfect.” Man wisse, dass die Karte nicht perfekt sei, aber jeder sei aufgerufen, sie besser zu machen, um Daten für alle bereitzustellen.

Karten seien wichtig, damit Menschen neue, ihnen unbekannte Regionen der Welt kennenlernen könnten, heißt es in dem Blogpost. Nordkorea war die bislang wohl unbekannteste Region. Bei Google Maps zumindest war es das letzte unkartographierte Land.

Nordkoreanern selbst wird das nichts nützen, normale Bürger haben dort keinen Zugang zum Internet, schon gar nicht mobil. Google schreibt, die Daten seien vor allem für Südkoreaner interessant, die Verwandte im Norden haben.

Kategorien: Datenquelle

Wir hängen an der Wasserflasche

Von 27. November 2012 um 07:46 Uhr

Die Deutschen lieben Mineralwasser. Nicht nur, dass sie zu den größten Konsumenten weltweit gehören; der Durchschnittsdeutsche trinkt auch viel mehr abgefülltes Wasser als früher. Noch im Jahr 1970 lag der jährliche Verbrauch pro Kopf bei rund 13 Litern Mineral- und Heilwasser. Mittlerweile hat sich die Menge verzehnfacht. Hinzu kommt ein Pro-Kopf-Verbrauch von gut fünf Litern Quell- und Tafelwasser.

Womöglich ist der Verbrauch derart angestiegen, weil man sich mit steigendem Wohlstand lieber abgefülltes Mineralwasser gönnt, statt schnödes Trinkwasser aus der Leitung zu zapfen. Dabei ist dessen Qualität mindestens genauso gut, sagen Verbraucherschützer – und Leitungswasser kostet auch viel weniger. Zwischen den Bundesländern gibt es allerdings große Unterschiede, wie die Grafik zeigt. In Bayern, Hamburg, Niedersachsen und Schleswig-Holstein war Leitungswasser im Jahr 2010 besonders günstig, im Saarland, Sachsen und Thüringen besonders teuer.

Unter den abgefüllten Wässern ist Mineralwasser der absolute Favorit der Konsumenten. Das Gesetz definiert genau, wann ein Wasser als Mineralwasser verkauft werden darf. Es muss aus unterirdischen, vor Verunreinigung geschützten Wasservorkommen stammen und darf laut Gesetz fast gar nicht verändert werden. Die Abfüller dürfen es filtern, belüften, ihm Kohlensäure entziehen oder hinzufügen. Um als “Natürliches Mineralwasser” gehandelt zu werden, braucht ein Wasser zudem eine amtliche Anerkennung.

Heil- und Quellwasser stammen ebenfalls aus unterirdischen Quellen. Doch während Heilwasser als Arzneimittel gilt, besonders mineralstoffreich sein muss und seine gesundheitsfördernde Wirkung sogar wissenschaftlich belegt sein muss, sind die Anforderungen an Quellwasser weniger streng. Tafelwasser ist im Gegensatz zu den anderen Wässern kein Naturprodukt, sondern kann auch vom Hersteller zusammengemischt werden, etwa aus Leitungswasser, Mineralwasser, Sole, Kochsalz oder Meersalz und weiteren Zusatzstoffen.

Besonders beliebt sind Mineralwässer mit wenig Kohlensäure und stille Wässer ohne und mit Geschmack. Ihr Absatz hat in den vergangenen Jahren stark zugenommen, während der Verkauf von Sprudelwasser hingegen leicht sank. Auch Erfrischungsgetränke auf Mineralwasserbasis verkaufen sich gut. Fassbrause sei der neue Trend, sagt der Mineralwasserverband, obwohl sie “eigentlich auf eine lange regionale Tradition zurückblicken” könne.

Den Branchenvertretern zufolge gibt es in Deutschland über 500 verschiedene Mineralwässer aus regionalen Brunnen. Die Karte zeigt: Ein beträchtlicher Teil der Wässer wird auch regional vermarktet. Besonders hoch ist die Quote in Nord- und Ostdeutschland. Allerdings ist die Größe der vom Branchenverband ausgewiesenen Gebiete sehr unterschiedlich, und gerade der Norden und Osten fallen besonders groß aus. Gut möglich, dass unter den dort gehandelten und in der Statistik als “regional” ausgewiesenen Mineralwässern auch solche sind, die über weite Strecken transportiert werden – beispielsweise von Südthüringen nach Berlin. Auffällig ist dennoch, dass ausgerechnet Bayern als relativ großes Flächenland den geringsten Absatzanteil an regionalen Wässern aufweist.

Nur wenige der deutschen Abfüller verkaufen ihr Wasser dem Verband zufolge international. Ebenso wird nur wenig des hier konsumierten Wassers aus dem Ausland eingeführt. Der Importanteil am Umsatz mit Mineral- und Heilwasser, gemessen in Litern, liegt seit Jahren relativ konstant zwischen acht und neun Prozent. Die Wässer, die wir einführen, kommen allerdings auch aus exotischen Gegenden. Aus den Einfuhrdaten des Bundesamtes für Statistik geht beispielsweise hervor, dass der Löwenanteil an importiertem Mineralwasser ohne Kohlensäure aus Frankreich kommt. Aber eine kleine Menge, vermutlich hochpreisiges Luxus-Wasser , stammt von den Fidschi-Inseln. Auch aus Norwegen, Russland, den USA, selbst aus den Vereinigten Arabischen Emiraten und Saudi-Arabien wird Mineralwasser ohne Kohlensäure nach Deutschland importiert. Ob das Wasser auch in der Wüste abgefüllt wurde, verrät die Statistik freilich nicht.

Importiertes kohlensäurehaltiges Mineralwasser kommt überwiegend aus Italien, das Tafelwasser aus den Niederlanden. Gezuckertes Import-Wasser, das nicht unbedingt Mineralwasser sein muss, aber sein kann, stammt vor allem aus Frankreich, Österreich, Dänemark und der Türkei. Und schließlich gibt es noch eine Kategorie von Importwasser, die Mineralwasser ausdrücklich ausschließt, aber Eis und Schnee mit einbezieht. Für solches Wasser sind die Niederlande unser größter Lieferant. Aber winzige Mengen kommen auch aus der Wüste der Vereinigten Arabischen Emirate, von den weit entfernten Salomonen – und sogar aus der Antarktis.

ZEIT ONLINE startet eine Text-API

Von 23. November 2012 um 14:03 Uhr

Namen, die in Texten von Zeit und Zeit Online vorkommen, sortiert nach ihrer Häufigkeit

ZEIT ONLINE hat ab sofort eine Content-API. Klingt langweilig? Nun, es kommt sehr darauf an, was andere daraus machen. Eine API ist ein Zugang, eine Möglichkeit, bestimmte Informationen automatisiert abzufragen. Auf der Seite http://developer.zeit.de/ findet sich nun eine solche API und sie ist der Zugang zu allen Texten, die in der ZEIT (seit 1946) und bei ZEIT ONLINE (seit 1996) erschienen sind.

Dank dieser Schnittstelle kann nun jeder alle Texte mit Hilfe von Programmen durchsuchen und analysieren. Eine REST-API gibt Metadaten wie Autor, Kategorien oder Schlagworte aus. In der Beta-Version der API ist es aus rechtlichen Gründen leider nicht möglich, auch den Volltext auszugeben und zu speichern. Aber wer ein Projekt plant, für das die Übernahme des Volltextes von Artikeln nötig ist, kann unter api@zeit.de jederzeit Kontakt aufnehmen.

Warum tun wir das? Wir glauben, dass in den hunderttausenden Artikeln noch viele spannende Informationen verborgen sind. Örtliche oder inhaltliche Zusammenhänge, Zeitbezüge – durch eine Verknüpfung können Dinge sichtbar werden, die beim einfachen Lesen nicht unbedingt zutage treten.

Beispielsweise durch Visualisierungen. Oder durch Langzeitbeobachtungen. Wie oft tauchte der Begriff “China” in den vergangenen 66 Jahren in unseren Texten auf? Und in welchen Zusammenhängen? Wie hat sich also das China-Bild der Redaktion und vielleicht also auch das deutsche China-Bild in dieser Zeit gewandelt?

Die automatisierte Abfrage stellt die Technik bereit, um solche Informationen finden zu können. Nun braucht es nur noch Fragen.

Anwendungen und Visualisierungen, die aus der Arbeit mit der API entstehen, sammeln wir auf dieser Seite. (Nachtrag: Was natürlich bedeutet, dass wir uns über jeden freuen, der uns das Ergebnis seiner Arbeit zeigt.)

Die Bedingungen, unter denen die Nutzung der Schnittstelle möglich ist, finden Sie hier.

Informationen über die weitere Arbeit an der API finden sich nebenan, im Entwicklerblog von ZEIT ONLINE.

Kategorien: Datenquelle

Nate Silver zeigt die Macht der Algorithmen

Von 8. November 2012 um 17:40 Uhr

Der politische Taschenrechner, das Blog von Nate Silver

Wenn Nate Silver fragt “Willst du mit mir wetten?”, sollte man nicht lange überlegen. Die einzig logische Antwort kann nur “Nein! Auf keinen Fall!” lauten. Der Statistik-Guru, dessen Blog FiveThirtyEight die New York Times vor zwei Jahren eingekauft hat, kennt seine Chancen – zumindest, wenn genügend Daten vorliegen.

Wie bei den US-Präsidentschaftswahlen: Silver lag schon 2008 mit seinen Prognosen sehr nah an den Ergebnissen. Diesmal waren sie so genau, dass kein Zweifel mehr an seinen Methoden bleibt. War er in der Woche zuvor noch als Magier belächelt oder sogar verspottet worden, wird er nun als solcher gefeiert. Silver tingelt durch Talkshows, sein im September erschienenes Buch schnellt in den Bestenlisten nach oben. Für jemanden, der so viel Zeit mit Zahlen verbringt, dessen Weg mit der Analyse von Baseball-Statistiken begann, steht er verdammt weit vorn im Rampenlicht.

Kritik hatte er sich vor allem von konservativer Seite eingefangen: Silver sah Obama seit Langem als Favoriten der Wahl, also musste ja irgendetwas nicht stimmen. Provoziert hatte er die Angriffe noch durch eine 1.000-Dollar-Wette mit Fernsehmoderator Joe Scarborough auf eine Wiederwahl des Präsidenten; das Geld des Verlierers sollte Hurrikan-Opfern zugute kommen. Nach einem Rüffel aus der Times-Chefetage spendete er schließlich ohne Wette 2.538 Dollar an das Rote Kreuz. Am Ende aber musste selbst einer seiner größten Kritiker, der Blogger Dean Chambers, zugeben: “Nate Silver hatte recht, und ich lag falsch.”

Dabei ist Silvers Methode alles andere als ein magisches Orakel, sondern mit harter Wissenschaft unterfüttert. Wie genau das Team von FiveThirtyEight mit den Daten umgeht, bleibt zwar selbstverständlich ein Geheimnis. Wäre die Formel hinter den Vorhersagen bekannt, könnte ja jeder zum selben Ergebnis kommen. Doch hinter den Algorithmen steckt eine Reihe von Überlegungen, die völlig nachvollziehbar sind.

Bauchgefühl gegen Statistik

Einen wichtigen Teil der Datenbasis etwa machen die unzähligen Wahlumfragen aus, die regelmäßig zu erstaunlich unterschiedlichen Ergebnissen geführt haben. Man kennt das Spiel: Wer eine bestimmte Botschaft stützen will – etwa “Der Trend spricht für Mitt Romney/Barack Obama” –, der sucht sich aus diesem Angebot eben das Passende aus.

Ein Weg, die Ausschläge nach oben oder unten einzudämmen, ist schlicht, einen Durchschnitt zu bilden. Doch Silver und sein Team gehen noch einige Schritte weiter. Ihr Modell gewichtet zunächst die einzelnen Umfragen unterschiedlich, beziehungsweise versucht, deren ideologisch oder strukturell begründete Abweichungen von einem repräsentativen Ideal herauszurechnen – gemessen vor allem an deren bisheriger Treffsicherheit. Neuere Umfragen erhalten zudem größeres Gewicht. Darüber hinaus zieht Silver noch andere verfügbare Daten für seine Analysen heran, die er zu den Umfragen in Beziehung setzt: etwa das Spendenaufkommen für die einzelnen Kandidaten, demographische Aspekte, Parteistatistiken und langfristige Trends.

Das alles fließt ein in ein komplexes Modell, dessen Ergebnisse ein willkommenes Gegengewicht zu all den politischen Experten bietet, die mit ihren vage fundierten Einschätzungen auf allen Fernsehkanälen so viel Sendezeit füllen, aber offenbar doch nur nach Bauchgefühl argumentieren. Wieder und wieder beteten die Insider das Mantra vom völlig offenen Kopf-an-Kopf-Rennen herunter, in dem der eine oder andere Kandidat aber einen entscheidenden Vorteil haben sollte. Silvers Wahrscheinlichkeiten sprachen hingegen deutlich für Obama. Sein Erfolg zeigt vor allem eines: Wahlen sind weniger überraschend als die meisten glauben – und als Journalisten es sich erhoffen.

Silver ist nur der Anfang

Silver lässt die Zahlen für sich sprechen, zieht seine Schlüsse streng nach analytischen Kriterien. Im Grunde müsste das alles todlangweilig sein. Natürlich steckt hinter dem rasanten Aufstieg des Statistik-Nerds auch das große Talent, sich medial gut zu verkaufen. Er ist lange nicht der einzige in diesem Feld, der das vorhandene Datenmaterial für präzise Vorhersagen nutzbar macht. Aber Drew Linzer, Sam Wang oder Josh Putnam genießen bei Weitem nicht diese Aufmerksamkeit.

In den Tagen vor der Wahl lasen bis zu 20 Prozent der Besucher auf der New York Times-Website auch Silvers Blog, teilweise mehr als 70 Prozent waren es unter denen, die das Politik-Ressort aufsuchten. Den kaum quantifizierbaren Kult um seine Person mal außen vor gelassen, lässt sich erahnen, dass es ein signifikantes Bedürfnis gibt, sich ohne ideologischen Spin mit den nüchternen Fakten auseinanderzusetzen – auch wenn starke Meinungen manchmal unterhaltsamer sein mögen.

Silver ist nur der Anfang. Die Datenmenge wächst, die Algorithmen werden besser und besser werden. Bei der nächsten Wahl in den USA werden die Medien nicht an dieser Entwicklung vorbeikommen: Jeder Sender, jedes Blatt wird einen Statistiker seines Formats haben wollen. Wollen wir wetten?

Die Bahn gibt ihre Daten lieber Google statt allen

Von 17. September 2012 um 17:12 Uhr

Zweiter Test: Fernverkehr der Deutschen Bahn from Michael Kreil on Vimeo.

Die Deutsche Bahn fährt nach einem Fahrplan, der an jedem Bahnhof aushängt, der auf diversen Websites angezeigt wird und den jeder über die offizielle Bahn-App auf seinem Smartphone einsehen kann. Alles gut, könnte man denken. Doch um wirklich von Nutzen zu sein, wäre es sinnvoll, wenn diese Fahrplandaten in einem maschinenlesbaren Format von jedem heruntergeladen werden könnten.

Dann könnte jeder darüber nachdenken, wie sich vielleicht noch bessere Fahrplan-Anwendungen bauen ließen. So clever die Bahn auch sein mag, in der Masse der Menschen gibt es garantiert immer noch einen, der noch cleverer ist. Und der etwas erdenkt, was vielen Bahnkunden nützten könnte.

Dieses Prinzip – open data genannt – haben viele Institutionen längst verinnerlicht. Die Bundesregierung beispielsweise testet deswegen ein Portal für viele, viele statistische Daten und Regierungsinformationen.

Die Deutsche Bahn jedoch mag diesen Vorteil nicht erkennen. Sie gibt ihre Daten nicht an Jedermann. Man wolle sich aussuchen, mit wem man zusammenarbeite, zitiert Spiegel Online einen Sprecher des Unternehmens. Sonst leide womöglich die Qualität.

Das Unternehmen, dem die Bahn vertraut, ist Google. Google Transit heißt das Produkt, das der Konzern aus solchen Kooperationen baut. Außerdem sind die Fahrpläne nun in die Anwendung Google Maps integriert.

Nach Meinung erster Tester beispielsweise bei Basic Thinking ist das aber nicht besonders gut gelungen. Zitat: “Nicht enthalten sind allerdings eben jene Daten des Nahverkehrs: U-Bahn, Straßenbahn und Bus. Google Transit schickt euch im Innenstadtbereich deswegen nur von Bahnhof zu Bahnhof und lässt euch kilometerweit zu Fuß laufen.”

Würden die Daten jedem zur Verfügung stehen, hätte Google sie trotzdem in sein Produkt einbauen und damit Geld verdienen können. Gleichzeitig aber wären sie für freie Entwickler eine Quelle gewesen, um eigene Ideen und vielleicht Produkte zu verwirklichen. Nicht umsonst gelten offene Daten als wirtschaftlicher Faktor.

Und solche freien Entwickler gibt es viele. Michael Kreil (der unter anderem an der Grafik über Vorratsdaten bei ZEIT ONLINE beteiligt war), hat mit dem Zugmonitor bewiesen, dass sich aus Fahrplandaten interessante und nützliche Anwendungen bauen lassen. Er glaubt ganz offensichtlich an die kreative Macht der Masse und hat die Fahrplandaten der Bahn von deren Websites geklaubt und auf einem eigenen Portal veröffentlicht, wo jeder sie herunterladen kann.

Damit dürfte bald ein Vergleich möglich sein, wer die besseren Anwendungen baut, die Bahn, Google oder irgendein freier Entwickler.

Die eigentliche Frage aber bleibt: Warum gibt die Bahn die Daten Google, statt sie jedem zugänglich zu machen? Warum nutzt der staatseigene Konzern nicht die Chance, offene Daten zu fördern? Um Geld soll es nicht gegangen sein, schreibt Spiegel Online. Worum dann? Angst vor der Kreativität anderer?

Bei Heise wird ein Sprecher mit den Worten zitiert, man wisse ja nicht, wie alt die Daten seien, die dann verwendet würden. Nun, das lässt sich wohl leicht beheben. Genau wie Google haben auch andere Entwickler von Diensten ein reges Interesse, ihren Kunden stets aktuelle Daten zu bieten. Solange die Bahn ihre eigenen Datensätze auf dem neusten Stand hält, dürfte es also kaum Probleme geben.

Kategorien: Datenquelle

Anspruch und Wirklichkeit − deutsche Medaillenerfolge nach Sportarten

Von 13. August 2012 um 14:14 Uhr

Die deutsche Olympiamannschaft kehrt mit einer durchwachsenen Bilanz aus London zurück. Auch wenn die Zahl der gewonnenen Medaillen (44) die der Spiele in Peking um drei übertrifft, enttäuschten einige erfolgsverwöhnte Sportarten. Wir haben die deutschen Medaillengewinne der Sommerspiele von 1952 bis 2012 für die einzelnen Sportarten ausgewertet. Dabei weisen wir die von DDR-Sportlern errungenen Erfolge gesondert aus.

Zum Abschluss der Spiele in London sorgten die Medaillenziele, die zwischen dem Deutschen Olympischen Sportbund und den Fachverbänden ausgehandelt wurden, für Aufsehen. Die Veröffentlichung wurde durch juristischen Druck erzwungen. Die für London 2012 genannten Leistungsziele wirken im historischen aber auch aktuellen Kontext sehr unrealistisch. Die 86 anvisierten Medaillen wurden noch nicht einmal 1992 bei den Spielen in Barcelona erreicht. Damals profitierte die gesamtdeutsche Mannschaft bei 82 gewonnen Medaillen neben der Wiedervereinigungseuphorie auch noch vom frischen Erbe der Kaderschmieden des DDR-Sports.

Die Sportarten sind in der Reihenfolge der seit 1952 gewonnen Medaillen visualisiert.

Grundlage für die historischen Daten ist die Wikipedialiste mit allen bisherigen deutschen Medaillengewinnern sowie die Datenbank des Internationalen Olympischen Komitees. Da beide Quellen jeweils einzelne Athleten aufführen, mussten die Daten der Teamdisziplinen medaillenspiegel-konform normalisiert werden (z.B. der erfolgreiche Ruderachter umfasst neun Sportlernamen, die dann zu einer gewonnen Medaille zusammengefasst wurden). Die 2012er Ergebnisse wurden der offiziellen Website der Spiele in London entnommen.

Die verwendeten Daten haben wir hier in diesem GoogleDoc zusammengefasst.