Data Blog

Offene Daten – offene Gesellschaft

Deutschlands Open-Data-Portal wird nur ein Data-Portal

Von 8. Februar 2013 um 09:17 Uhr

Bund und Ländern bekommen ein Datenportal, aus dessen Namen wenige Tage vor dem offiziellen Start das “Open” verschwunden ist. Das einst als OpenGovData geplante Portal wird nur noch GovData heißen.

Dass es soweit kommen musste, empört zahlreiche Organisationen und Aktivisten aus der Open Knowledge Foundation, der Digitalen Gesellschaft, dem Chaos Computer Club und dem Open Data Network. In einem offenen Brief distanzieren sie sich von dem Projekt, weil sie sich nicht instrumentalisieren lassen wollen. Denn viele von ihnen sollten in die Planung für das vom Bundesinnenministerium geführte Datenportal mit einbezogen werden. Dieser Ansatz wird von niemandem grundsätzlich kritisiert, er sollte vielmehr selbstverständlich sein bei staatlichen Vorhaben dieser Art. In diesem Fall ist die Vorgehensweise jedoch zumindest teilweise gescheitert.

Der Protest entzündet sich vor allem an drei Punkten:

  • Erstens bekennen sich Bund und Länder mit GovData Deutschland nicht eindeutig zu den unter Open-Data-Aktivisten international längst anerkannten Standards und Definitionen von “Open”. Stattdessen schaffen sie eine nationale Insellösung und geben damit nach Ansicht der Unterzeichner des Protestbriefs ein schlechtes Vorbild ab.
  • Zweitens bleibt es den Behörden selbst überlassen, ob sie Daten zu dem Portal beisteuern und wenn ja, welche Nutzung der Daten sie gestatten.
  • Drittens halten Kritiker die bisher über das Portal verfügbaren Daten für kaum nachgefragte “Schnarchdaten”. Das, heißt es, sei die Folge von unverbindlichen oder falschen Prioritäten, welche Daten zur Verfügung gestellt werden sollen. Dass die Standortdaten von Hundekotbehältern weniger interessant sind als der Energieverbrauch öffentlicher Anlagen, liegt dabei auf der Hand. Zusammengenommen steckt in dem offenen Brief der Vorwurf, die deutsche Politik ergehe sich in halbherzigen Schritten und täusche Innovationsbereitschaft nur vor.

Behörden fühlen sich ihren eigenen Maßstäben verpflichtet

Die Teilnehmer der vom Bund organisierten Community-Workshops haben nun in letzter Minute vor allem eines erreicht: Es findet sich kein “Open” mehr im Namen des Portals. Damit entgeht die Bundesregierung zumindest der Kritik, sie betreibe hier Etikettenschwindel und eine Verwässerung des Begriffs “Open Data”.

Eine der Ursachen für die Differenzen dürfte schlicht Zeitdruck gewesen sein. Aus informierten Kreisen heißt es, dass die CeBIT 2013 die Zeitpläne regiert habe. Um bei der Messe irgendetwas mit “Open Government Data” präsentieren zu können, gab der Bund eine dem Vernehmen nach viel zu kurzfristig angelegte Studie beim Fraunhofer-Institut für offene Kommunikationssysteme (FOKUS) in Auftrag. Ebenso hastig ging es dann offenbar an die technische Umsetzung der Studienempfehlungen.

Die Leitung des Projekts liegt beim Bundesinnenministerium, das aber in ständiger und entsprechend langwieriger Abstimmung mit einer bunt besetzten Bund-Länder-Arbeitsgruppe steht. Das hätte einzig durch eine mit entsprechender politischer Prokura ausgestattete funktionale Leitung auf Bundesebene abgemildert werden können. Die aber gibt es nicht. Weder hat im föderalen System hierzulande der Bund eine rechtliche Kompetenz, um in Sachen öffentliche Daten “durchzuregieren”, noch scheint es bei der Bundesregierung den politischen Willen zu geben, wenigstens eine starke Leithammelfunktion zu übernehmen.

In den Ländern sind verschiedene Ministerien, in einem Fall sogar das Landwirtschaftsressort verantwortlich. So kommt es, dass man auf Arbeitsebene des Bundesinnenministeriums zwar irgendwie “offene Daten” will, aber immer nur Bittsteller ist gegenüber den Behördenleitungen, die sich – mangels klarer politischer Ansage ihrer jeweiligen Landesregierung – vor allem ihren eigenen Maßstäben verpflichtet fühlen.

Verwaltungsrecht statt Standardlizenzen

Die Unterzeichner des offenen Briefes pochen dagegen auf Standards. Neben einigen Standardlizenzmodellen sind das in erster Linie die von unterschiedlichen, durchweg nicht staatlichen Akteuren kuratierten Definitionen und Prinzipien für offene Daten. Beispiele gibt es hier, hier und hier. Diese Definitionen sind zwar nicht bindend und auch nicht in völkerrechtlichen Abkommen festgelegt. Aber immerhin funktioniert die Regelfindung stets im Konsens einer großen Zahl von Beteiligten weltweit.

Im Falle von GovData handeln dagegen staatliche Behörden nach den ihnen vertrauten Grundsätzen. Vor der Verabschiedung des Informationsfreiheitsgesetzes (IFG) auf Bundesebene und entsprechender Ländergesetze galt eindeutig: Im Zweifel unterliegen behördliche Vorgänge dem Amtsgeheimnis. Wer Akteneinsicht haben wollte, musste eine besondere Berechtigung vorweisen können. Noch heute versuchen viele Behörden, Auskunftsanträge nach dem IFG und vergleichbaren Gesetzen auf Biegen und Brechen mittels kreativer Auslegung der darin genannten Ausnahmeregelungen abzulehnen oder massiv zu erschweren. Initiativen wie Frag den Staat arbeiten mit modernen Mitteln dagegen an.

Die Kritiker befürchten denn auch nicht zu Unrecht, dass viele Behörden – so sie überhaupt die wirklich interessanten Daten herausgeben – die bei GovData vorgesehene Option wählen, nach der nur eine nicht-kommerzielle Nutzung ihrer Daten gestattet ist. Diese “Lizenz” aber widerspricht dem für “Open Data” weithin anerkannten Grundsatz, wonach die Daten auch kommerziell nachnutzbar sein müssen. Im Grunde ist es aber noch schlimmer. Statt die Nutzung der Daten vertraglich zu regeln, wie es alle Standardlizenzmodelle im Open-Content-Bereich von Wikipedia bis Linux tun, verlässt man sich bei GovData lieber auf das deutsche Verwaltungsrecht.

Laien ist dieses juristische Problem schwer zu vermitteln, an dieser Stelle deshalb ein Erklärungsversuch.

Ein einzelnes Faktum, eine schlichte Information wie etwa die Tageshöchsttemperatur in Berlin an Heiligabend 2012 ist nach dem Urheberrecht frei verwendbar – selbst wenn sie in einer ansonsten insgesamt geschützten Datenbank enthalten sein sollte. Doch wer sich auf diesen Grundsatz verlässt, hat die Rechnung ohne die schier unbegrenzten Möglichkeiten des Verwaltungsrechts gemacht. Das Urheberrechtsgesetz ist im Unterschied dazu Teil des Zivilrechts. Alle, die sich in zivilrechtlichem Rahmen bewegen müssen (etwa Privatpersonen und Unternehmen), müssen mit den “Werkzeugen” auskommen, die ihnen das Zivilrecht anbietet.

Staatliche Stellen können sich hingegen statt des zivilrechtlichen Rahmens den des Verwaltungsrechts aussuchen, innerhalb dessen sie sich gewissermaßen ihre eigenen rechtlichen Werkzeuge bauen können. Das geht so: Sofern eine Behörde nicht gesetzlich verpflichtet ist, in einer bestimmten Weise zu handeln, kann sie per “Verwaltungsakt” für alles, was sie tut, beinahe beliebige Regeln aufstellen. Er wirkt wie ein Gesetz im Miniaturformat. Auch Nutzungsbedingungen können in dieser Form definiert werden. Der oben genannte Grundsatz, dass einzelne Fakten frei und nachnutzbar sind, sobald man sie hat, kann so umschifft werden. GovData schlägt genau diesen Weg ein, um den Behörden die Möglichkeit zu geben, die Kontrolle über die Verwendung der von ihnen bereitgestellten Daten noch granularer ausüben zu können, als es nach dem Zivilrecht möglich wäre, bis hinunter zum einzelnen Faktum.

Ob das einen spürbaren Dämpfer für die Open-Data-Community bedeuten wird, ist keineswegs ausgemacht. Manch ein Projekt wird es schlicht aufgeben, sich um die rechtlichen Fragen seiner Arbeit Gedanken zu machen, und wird einfach loslegen. Wenn es Ärger geben sollte, kann das auch eine willkommene Marketinghilfe sein. Hinderlich ist der gegenwärtige Streit dennoch, vermeidbar wäre es allemal gewesen. Er lässt den Start von GovData vor allem als verpasste Chance erscheinen.

Disclaimer: Der Autor dieses Artikels gehört zu den Erstunterzeichnern des offenen Briefes unter http://not-your-govdata.de/.

Dieser Text wird unter der Creative-Commons-Lizenz Namensnennung 3.0 de veröffentlicht.

Kategorien: Allgemein

Google veröffentlicht Karten von Nordkorea

Von 29. Januar 2013 um 16:12 Uhr
Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Straßenkarte von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Im Programm Google Earth, das Satellitenbilder der Welt sammelt, war Nordkorea schon lange kein weißer Fleck mehr. Seit Jahren gibt es ein Projekt, das versucht, mehr Informationen über das abgeschottete Land zu sammeln und bei Google Earth einzustellen. Nun sind solche Informationen auch bei Google Maps zu sehen, wo Nordkorea bislang noch terra incognita war.

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Maps / Screenshot ZEIT ONLINE

Seit Dienstag bietet Google Maps ein vergleichsweise detailliertes Bild des kommunistischen Landes. Gebäude, Straßen, Gulags – was bislang nur in der Software zum Herunterladen zu sehen war, ist nun auch in der Kartenanwendung sichtbar. Dort sind die Bilder zusätzlich mit Straßennamen versehen, oft auf Koreanisch, manchmal aber auch auf Englisch.

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Ansicht von Pjöngjang bei Google Earth / Screenshot ZEIT ONLINE

Die Daten sind eine Mischung aus den üblichen Satellitenbildern und Informationen, die Nutzer beigetragen haben. Google bietet ein Programm, mit dessen Hilfe jeder die Karten aktualisieren kann.

Die Schwierigkeit ist, zu bewerten, ob die Daten korrekt sind. Schließlich gibt es keine offiziellen Karten Nordkoreas, mit denen die Angaben verglichen werden könnten. Die Software arbeitet daher so ähnlich wie die Wikipedia – Daten, die ein Nutzer einstellt, können von anderen korrigiert werden. Je mehr bei solchen Projekten mitmachen, desto besser ist die Qualität der gesamten Daten. Im Fall Nordkorea ist das durchaus ein Problem, nicht viele Menschen haben Gelegenheit, das Land zu besuchen.

Im Firmenblog der Kartenanwendung heißt es: “We know this map is not perfect.” Man wisse, dass die Karte nicht perfekt sei, aber jeder sei aufgerufen, sie besser zu machen, um Daten für alle bereitzustellen.

Karten seien wichtig, damit Menschen neue, ihnen unbekannte Regionen der Welt kennenlernen könnten, heißt es in dem Blogpost. Nordkorea war die bislang wohl unbekannteste Region. Bei Google Maps zumindest war es das letzte unkartographierte Land.

Nordkoreanern selbst wird das nichts nützen, normale Bürger haben dort keinen Zugang zum Internet, schon gar nicht mobil. Google schreibt, die Daten seien vor allem für Südkoreaner interessant, die Verwandte im Norden haben.

Kategorien: Datenquelle

Ein Feiertag für Hacker

Von 23. Januar 2013 um 15:24 Uhr

Die US-Regierung hat den 1. Juni zum nationalen Hackertag erklärt. Die Idee ist gut, das Timing nicht.

Am National Day of Civic Hacking sollen Hacker, Entwickler und Unternehmer im ganzen Land dafür sorgen, dass die Open-Data-Schätze der Regierung gehoben werden können. Behörden wie das Arbeitsministerium, das Zensus-Büro und die Nasa wollen sogar eigene Hackerwettbewerbe ausschreiben.

Ziel sei es, “gemeinsam neue Wege zu finden, öffentliche Daten und öffentlichen Code zur Lösung von Problemen in unserer Nachbarschaft, unseren Städten, Staaten und unserem Land zu nutzen.” Das Motto: “Krempelt die Ärmel hoch, macht mit und arbeitet zusammen daran, unsere Gesellschaft zu verbessern.”

Das klingt löblich, aber der Zeitpunkt der Ankündigung ist unglücklich. Das letzte, was US-Hacker derzeit wollen, ist, für eine Regierung zu arbeiten, die ihrer Ansicht nach mitschuldig ist am Suizid von Aaron Swartz. Der 26-Jährige hatte sich Zutritt zum Intranet des Massachusetts Institute of Technology (MIT) verschafft und aus der Datenbank JSTOR rund vier Millionen Artikel aus wissenschaftlichen Zeitschriften heruntergeladen. Swartz wurde entdeckt und 14 verschiedener Straftaten angeklagt, obwohl er keinen der Artikel veröffentlicht hatte. Der Prozess, in dem er zu 35 Jahren Haft und einer Million Dollar Strafe hätte verurteilt werden können, sollte im April beginnen.

Die Wissenschaftlerin Danah Boyd hat unmittelbar nach dem Tod von Swartz einen wütenden Blogpost veröffentlicht, in dem sie die Stimmung in der Szene auf den Punkt bringt: “Als die Regierung auf Aaron losging, behandelte sie ihn nicht wie jemanden, der möglicherweise etwas Dummes getan hat. Er war ein Exempel. Sie wollten ihm keine Lektion erteilen, sie wollten der gesamten Cambridge-Hackerszene zeigen, dass sie geschlagen (“p0wned”) ist. Es war eine Drohung, die nichts mit Gerechtigkeit zu tun hatte, aber umso mehr mit dem großen Kampf um systemische Macht. Immer wieder haben Hacker den Status quo herausgefordert und die Legitimität zahlloser politischer Aktionen infrage gestellt. Ihre Mittel mögen fragwürdig gewesen sein, aber ihre Absichten waren legitim. Der Sinn einer funktionierenden Demokratie ist es, den Gebrauch und Missbrauch von Macht jederzeit zu hinterfragen, um das Entstehen von Tyrannei zu verhindern. In den vergangenen Jahren mussten wir mit ansehen, wie Hacker als Anti-Demokraten dämonisiert wurden, obwohl sich viele von ihnen als zeitgemäße Freiheitskämpfer bezeichnen würden.”

In den User-Kommentaren in Techblogs von The Verge bis TechCrunch spiegelt sich diese Wut wieder. “Ist das der offizielle ‘Vergesst, dass wir Aaron Swartz getötet haben’-Tag?”, heißt es dort. Oder auch: “Wenn die Exekutive nun die Hacker umarmen will, sollte sie der Judikative zunächst mal sagen, dass sie mit der Verfolgung aufhören sollte.”

Statt zu versuchen, die Hackerszene mit einem Aktionstag einzuspannen, sollte die Regierung zunächst wohl besser für Frieden sorgen. Die Bürgerrechtsorganisation Electronic Frontier Foundation (EFF) schlägt vor, mit dem umstrittenen Gesetz Computer Fraud and Abuse Act (CFAA) anzufangen und es zu ändern. Das Gesetz kriminalisiere in seiner jetzigen Form den nicht autorisierten Zugriff auf Computersysteme und verlange drakonische Strafen selbst für letztlich gemeinnützige Aktionen ohne irgendwelche Opfer. “Brillante, talentierte, visionäre Menschen sollten ihre Zeit damit verbringen können, unsere Zukunft zu gestalten – nicht mit der Befürchtung, im Gefängnis zu versauern”, schreibt die EFF.

Der Tag, an dem das Gesetz entschärft wird, wäre ein echter Feiertag für die Hacker-Community in den USA.

Kategorien: Allgemein

Ja, wo twittern sie denn?

Von 11. Januar 2013 um 17:10 Uhr
Tweets über Manchester United (rot) und Manchester City (blau)

Tweets über Manchester United (rot) und Manchester City (blau)

Wo sind die wahren Fans von ManU? Oder die von Arsenal? Ist Manchester City wirklich der beliebteste Club in der Region von Manchester, oder ist es nicht doch eher Manchester United? Wissenschaftler am Oxford Internet Institute haben Tweets ausgewertet, um darüber eine Aussage treffen zu können.

Dazu analysierten sie alle Tweets, die zwischen dem 18. August und dem 19. Dezember 2012 versendet wurden und die sich einer Geokoordinate zuordnen ließen, weil der Twitterer das eingestellt hatte. Gesucht wurden Botschaften, die sich mit einem der Clubs der britischen Premier League beschäftigten. Anschließend wurden sie nach Postleitzahlen sortiert. Auf der daraus erstellten interaktiven Karte ist zu sehen, in welchen Postleitzahlenbereichen Botschaften zu welchem Club überwogen.

Auch haben sie klassische Rivalitäten visualisiert, wie eben die zwischen ManU und Manchester City. Oder die zwischen Arsenal und Tottenham.

Und so ist man offensichtlich im Westen von Manchester eher für ManU und im Osten eher für Manchester City. Die Forscher schreiben: “In Manchester gibt es das oft zitierte Stereotyp, Manchester City seien die wahren Lokalhelden, Manchester United werde eher von Leuten unterstützt, die woanders lebten. Unsere Karte unterstützt diese Sicht nicht unbedingt. Es gibt nur wenige Orte in der Region, wo Manchester City signifikant häufiger in Tweets erwähnt wurde als ihr Rivale. Seltsamerweise sehen wir in Schottland und Merseyside mehr Unterstützung für Manchester City, und in Nordirland mehr für Manchester United.”

Das mag wie eine Spielerei wirken. Doch es belegt, dass Twitter dazu dienen kann, ein Stimmungsbild zu zeigen. Zumindest ein ungefähres. Denn die Stimmungsanalyse von Tweets ist nicht so einfach. Der Algorithmus muss erkennen, ob der Text wirklich einen Verein unterstüzt, oder sich nur über ihn lustig macht. Daher schreiben die Wissenschaftler auch, dass ihre Daten unsauber sind. Trotzdem sind sie überzeugt, dass sich so Mythen widerlegen und Einsichten gewinnen lassen.

Kategorien: Datenvisualisierung

Wie Europas Steuerwelt auseinanderfällt

Von 9. Januar 2013 um 12:54 Uhr

Weltweit versuchen Staaten, ihre Verschuldung abzubauen und die Steuern zu erhöhen. Doch die Besteuerung von Firmen ist ein Balanceakt. Die Steuersätze dürfen nicht zu niedrig sein – sonst bringt die Steuer nichts. Sie dürfen aber auch nicht zu hoch sein – sonst verscheuchen sie die Firmen. Für einige Länder haben sich niedrige Steuersätze zum Geschäftsmodell entwickelt. Sie hoffen darauf, langfristig zu profitieren, indem sich Unternehmen ansiedeln, Arbeitsplätze geschaffen werden und so Einkommenssteuern gezahlt werden.

Das Zentrum für Europäische Wirtschaftsforschung (ZEW) erstellt jedes Jahr exklusiv für die EU-Kommission eine Übersicht der aktuellen Unternehmenssteuersätze in der EU. Sie zeigt die Effektivsteuersätze in den 27 EU-Staaten sowie in den USA, Japan, der Schweiz, Türkei und Norwegen. Der Indikator “Effektivsteuersatz” setzt sich aus zwei Größen zusammen: dem reinen Steuersatz sowie der Bemessungsgrundlage. Sie gibt etwa an, wie großzügig Abschreibungen möglich sind.

Das Diagramm verdeutlicht die Kluft zwischen den EU-Staaten. Auf der einen Seite stehen vor allem osteuropäische Staaten wie Bulgarien, die mit extrem niedrigen Steuern locken. Ihnen gegenüber stehen Länder wie Frankreich, Deutschland oder Italien mit teilweise drei Mal so hohen Belastungen. Zwar gebe es seit Jahren den generellen Trend sinkender Steuersätze für Firmen, sagt Jost Heckemeyer, Steuerspezialist der Universität Mannheim. Seit Ausbruch der Finanzkrise habe sich aber dieses “race to the bottom” verlangsamt, schließlich sorgten sich alle Staaten um ihre Einnahmen.

Bei einigen Ländern lohnt sich ein genauerer Blick: Laut Tabelle erreicht Malta mit 32,2 Prozent den zweithöchsten Effektivsteuersatz in der EU. Wie kann das sein, wo Malta doch als klassisches Steuersparland gilt? Die Antwort liegt in einem besonderen Kniff, den die maltesischen Steuergesetze vorsehen: Erst einmal veranschlagen sie einen hohen Effektivsteuersatz. Doch Anteilseigner können sich die gezahlten Unternehmenssteuern erstatten lassen, wenn ihre Dividenden ausgeschüttet werden.

Mit einem Effektivsteuersatz von gerade einmal neun Prozent fällt Bulgarien auf. Das ärmste Land der EU will sich durch niedrige Steuern attraktiv für ausländische Unternehmen machen. Es setzt auf eine Flatrate: Der Körperschaftssteuersatz liegt bei gerade einmal zehn Prozent. Das ist niedrig genug, um vor allem Firmen aus den Nachbarländern Griechenland und Rumänien anzulocken. Sie siedeln sich direkt am Grenzgebiet an. Neben Bulgarien wirbt auch Zypern mit einer Flatrate von zehn Prozent auf Unternehmensgewinne.

Trotz der Diskussion um Steuerdumping hält Irland an seinem niedrigen Steuersatz von 12,5 Prozent für Einkünfte fest. Allerdings ist die Bemessungsgrundlage relativ restriktiv geregelt, Abschreibungsregelungen sind im Verhältnis zu anderen Staaten ungünstiger. Daher liegt der effektive Durchschnittssteuersatz bei 14,4 Prozent. Im Unterschied zu seinem Nachbarn Großbritannien hat Irland im November 2010 seine Patentbox abgeschafft: Bis dahin waren Einkünfte aus der Verwertung von Patenten steuerfrei. Das machte Irland vor allem für Firmen wie Apple oder Google interessant, die sich dort ansiedelten. Inzwischen bieten sieben andere EU-Staaten ebenfalls Patentboxen an: Belgien, Luxemburg, Malta, die Niederlande, Spanien, Ungarn und Zypern.

Die Patentboxen stoßen auch auf großes Interesse im Nachbarland Großbritannien. Das Land ist für seine aggressive Steuerpolitik bekannt, Premierministerin Margaret Thatcher senkte in den achtziger Jahren die Steuersätze von mehr als 50 Prozent auf 35 Prozent. Dieser Trend setzt sich auch heute noch fort: Bis 2014 will die Regierung die Unternehmenssteuern um drei Prozentpunkte auf 22 Prozent senken. Die geplante Neuregelung der Patentboxen ist vor allem für Pharma- und IT-Konzerne interessant. Im Frühjahr will London, wie Irland, eine Patentbox mit einem ermäßigten Steuersatz von zehn Prozent einführen.

In Frankreich haben dagegen hohe Steuern eine Tradition. Vor allem auf Vermögenswerte greift Paris gern zu. Es erhebt neben der Körperschaftssteuer eine Grundsteuer auf betriebliche Immobilien, kombiniert mit einer Wertschöpfungssteuer, die sämtliche Einkommen aus Produktion besteuert, neben Gewinnen also auch Fremdkapitalzinsen und Gehälter. Auch die Unternehmenssteuern sind im europäischen Vergleich recht hoch. Sie liegen bei 33,33 Prozent und erhöhen sich auf 34,43 Prozent für größere Unternehmen.

Deutschland liegt mit einem Effektivsteuersatz von 28,2 Prozent schon seit Jahren oberhalb des EU-Durchschnitts. Zum letzten Mal reformierte die Bundesregierung die Unternehmenssteuern im Jahr 2008 und senkte unter anderem die Körperschaftssteuer von 25 Prozent auf 15 Prozent. Die Steueroasen in Europa sind Bundesfinanzminister Schäuble ein Dorn im Auge. Er kündigte eine Initiative der OECD an, um die aggressiven Steuersparmodelle von Firmen weltweit einzudämmen.

Kategorien: Allgemein

Die 250 meistgenannten Personen 2012

Von 31. Dezember 2012 um 13:17 Uhr

Ein Jahresrückblick mit Hilfe der ZEIT ONLINE API: Wer waren die 250 meistgenannten Personen in unseren Artikeln im Jahr 2012?
Gregor Aisch hat für uns die Personen-Schlagworte der rund 15.000 Artikel von ZEIT ONLINE und DIE ZEIT über unsere neue Datenschnittstelle ausgewertet und visualisiert. Zum Einsatz kam dabei Gephi, ein mächtiges Open-Source Werkzeug zur Visualisierung von Netzwerkgrafiken.

Wir zeigen hier die 250 am häufigsten genannten Personen. Je größer der Name erscheint, desto häufiger die Nennung in den Artikeln. Einzelne Personen sind durch eine Linie (man spricht von “Kanten”) verbunden, sobald sie zusammen als Schlagwort in einem Artikel vorkommen. Die Kanten sind unterschiedlich gewichtet, je nachdem wie oft die Schlagworte zusammen verwendet wurden und wie häufig sie im Gesamtkorpus aufgetaucht sind.
Zusätzlich entstehen so thematische Cluster. So nimmt beispielsweise das Netz der deutschen Innenpolitik Gestalt an. Interessant zu sehen ist die Position des in diesem Jahr gescheiterten Bundespräsidenten Christian Wulff (CDU) und die sichtbare Distanz zwischen ihm und Kanzlerin Merkel. Auch seine Gattin Bettina Wulff ging bereits während der Rücktrittsrede auf Distanz und entfernte sich mit ihrer Buchveröffentlichung im Laufe des Jahres noch weiter von ihm. Durch häufige Wortmeldungen zeigt sich Bundesarbeitsministerin Ursula von der Leyen (CDU) stark vernetzt. Wir wollen aber gar nicht zu viele Aspekte herausgreifen und Sie zum Stöbern in dieser Netzwerkgrafik einladen. Auch für uns als Redaktion ist diese Visualisierung ein wichtiges Spiegelbild des eigenen Schaffens. Wem haben wir vielleicht zu viele Erwähnungen eingeräumt, welcher Stimme gar zu wenig Gehör oder Aufmerksamkeit verschafft?

“Vermisst”-Aktion beschränkt sich auf Klischee-Bezirke

Von 30. November 2012 um 14:32 Uhr

Berliner Stadtteile mit Bewohnern mit Migrationshintergrund und Standorte der BMI-Aktion "Vermisst". Quelle: Frag den Staat

Bei der “Vermisst”-Aktion, die auf die Gefahr hinweisen will, dass junge Menschen in den islamischen Extremismus abdriften könnten, haben sich das Bundesinnenministerium und/oder die beteiligten Werbeagenturen offensichtlich von Klischees leiten lassen. Diese Vermutung stützen zumindest Daten, die Stefan Wehrmeyer von der Aktion Frag den Staat dank einer Anfrage nach dem Informationsfreiheitsgesetz vom BMI erhalten hat.

Für die umstrittene Aktion waren neben einer Print- und einer Onlinekampagne auch großflächige Plakate geplant. Die Orte (hier ein PDF der BMI-Liste), an denen diese Plakate aufgestellt werden sollten, zeigen ein Muster.

Gut 140 der 200 Plakate waren für Berlin vorgesehen. Sie ballen sich in den von Migranten geprägten Stadtteilen Wedding, Kreuzberg und Neukölln, wie unsere interaktive Karte zeigt:

Unterlegt ist die Karte jeweils mit dem Anteil von Deutschen, die einen Migrationshintergrund haben. Dargestellt ist dieser Anteil in der kleinsten statistischen Gliederung Berlins, den sogenannten Planungsräumen. Je dunkler ein Bezirk, desto höher ist der Anteil. Angezeigt werden nur Räume mit mehr als 250 Einwohnern, daher lassen sich manche Kieze nicht anklicken. Die Markierung “A” bedeutet dabei das Plakatmotiv “Ahmad”, “H” bedeutet “Hassan”, “T” steht für “Tim”, einen Konvertiten. Der rote Marker steht für eine kleine Anzahl ins Türkische übersetzte Motive (mit dem Bildmotiv “Ahmad”), der grüne Marker steht für eine kleine Zahl von arabischsprachigen Plakaten (mit dem Bildmotiv “Hassan”).

Wie die Karte zeigt, wären auch viele andere Gebiete in der Stadt als Ort für Plakate infrage gekommen. Zumindest, wenn der Anteil von dort lebenden Migranten das entscheidende Kriterium ist. Doch war das offensichtlich nicht der Fall.

Sind das Bundesinnenministerium und die von ihm beauftragten Werbeagenturen vielleicht danach gegangen, wie viele Migranten und Ausländer zusammengerechnet in einem Viertel leben? Die zweite Karte zeigt diesen summierten Anteil. Je dunkler ein Feld, desto höher ist er:

Offensichtlich war auch das nicht das Kriterium. Denn dann wären deutlich mehr Standorte infrage gekommen, wie die dunkler eingefärbten Felder zeigen.

Die Kampagne hatte sich also offenbar auf die Klischee-Orte Wedding, Kreuzberg und Neukölln fixiert. Moabit, Spandau oder Marzahn wurden vergessen. Das ist seltsam. Und es steht im Widerspruch vor allem zum Motiv “Tim”. Das immerhin zeigt einen deutschen Konvertiten. Es macht mit 60 Plakaten fast die Hälfte aller 140 Berliner Plakate aus, sollte aber ebenfalls bis auf wenige Ausnahmen in den drei Stadtteilen aufgestellt werden. Unsere dritte Karte zeigt das deutlich, auf ihr sind die vorgesehenen Standorte der Plakate verzeichnet, die das Motiv “Tim” zeigen:

Die Daten unterstützen die Ansicht der Kritiker der Kampagne. Als diese Ende August 2012 beginnen sollte, waren vier der fünf beteiligten Islamverbände nicht glücklich mit der Ausrichtung. Sie zogen sich am 31. August zurück, weil die Darstellung von Migranten ihrer Ansicht nach pauschalisierend ist. Sie nannten den Plan des BMI eine “Steckbriefkampagne”. Im Bundesinnenministerium hieß es, man könne die Kritik nicht nachvollziehen. Trotzdem wurden die Plakate nie aufgehängt, lediglich Postkarten wurden verteilt.

Nebenbei: Ganz billig waren die Plakate trotzdem nicht. Wie aus den Daten hervorgeht, wurden – obwohl abgesagt – für insgesamt 203 großflächige Plakate 44.640 Euro berechnet, im Durchschnitt 220 Euro pro Plakat. Allein für Berlin sind das also mehr als 30.000 Euro. Die gesamt Kampagne sollte knapp 328.000 Euro kosten. Hier ein PDF der Kostenaufstellung des Ministeriums. Die “finalen Kosten werden sich unter Umständen noch reduzieren”, schreibt das Ministerium in seiner Antwort, da ein Teil der Anzeigenkampagne hinterher auf Basis der Klicks abgerechnet würde.

Nachtrag: Die Datenquellen zur Berliner Einwohnerregisterstatistik hatte ich in der Ur-Version des Textes verlinkt, in der redigierten Fassung nicht mehr. Hier die Einwohnerregisterstatistik, Stichtag 31.12.2011 und die Shapefiles der Planungsräume.

Disclaimer: Michael Hörz arbeitet beim Portal Frag den Staat mit, das es Bürgern einfacher machen will, ihr Recht auf Informationen gegenüber Behörden und Ministerien durchzusetzen. Er wird im Data Blog regelmäßig ausgewählte Informationsfreiheitsanfragen vorstellen.

Kategorien: Datenvisualisierung

Wo das Jobwunder stattfindet – und wo nicht

Von 29. November 2012 um 17:06 Uhr

Die Arbeitslosigkeit ist in Deutschland so niedrig wie zuletzt vor rund 20 Jahren. Das deutsche Jobwunder ist in aller Munde. Die gute Entwicklung vollzieht sich allerdings nicht überall im Land, die regionalen Unterschiede sind groß. Unsere Visualisierung zeigt die Entwicklung der Arbeitslosenquoten in allen Landkreisen und kreisfreien Städten: erstmals nicht in Form einer eingefärbten Karte, sondern als Grafikteppich, in dem Sie selbst recherchieren können.

Jede Zeile zeigt die Entwicklung in einem Landkreis beziehungsweise einer kreisfreien Stadt. Dargestellt werden die monatlichen Arbeitslosenquoten seit Januar 2005. Die Farbintensität eines Kästchens steht für die jeweilige Quote: Je dunkler, desto höher ist der Anteil der Arbeitslosen in dieser Region. Auf diese Weise werden im zeitlichen Verlauf regionale Dynamiken am Arbeitsmarkt sichtbar.

Die Idee für diese Darstellung ist entstanden, als wir zunächst nur testweise sehen wollten, welche Muster in den Monatszahlen der Bundesagentur für Arbeit stecken. Jeder Betrachter entdeckte sofort auffällige Häufungen. Schnell war klar, dass diese Form der Visualisierung ganz neue Zugänge schafft, gerade auch, weil alle Regionen im optischen Kontext stehen.

Filter, Sortierungen und Sprungmarken helfen bei der Navigation in dieser opulenten Grafik. Die eigene Region ist am Schnellsten durch die Eingabe der Postleitzahl erreichbar. Zum Einstieg führt eine Tour durch die Visualisierung und stellt drei exemplarische Regionen mit spannenden Verläufen vor. Im Zuge von Gebietsreformen hat sich die räumliche Zusammensetzung von einigen Landkreisen verändert. Um die Grafik nicht noch komplexer zu machen, weisen wir die Zahlen vor der Reform nicht aus.

Hier geht es zur Visualisierung

Technische Umsetzung: Realisiert wurde die Grafik von Paul Blickle (Twitter: @colorfuldata).Die Grafik wurde mit Hilfe der Javascriptbibliothek D3 entwickelt. Die Tour wurde mit guiders.js realisiert.

Kategorien: Allgemein

Punkte, Linien, Listen

Von um 13:46 Uhr

Verteilung des Wortes "Computer" in Texten von ZEIT und ZEIT ONLINE zwischen 1950 und 2012 Quelle: http://impactdevelopment.de/labs/zeit-online-api-demo/

Seit einer Woche ist unsere Text-Schnittstelle online und inzwischen gibt es eine ganze Reihe von Ideen, was sich mit dieser API und den dahinter liegenden Daten anstellen lässt. Einige sind so schön, dass wir sie etwas ausführlicher vorstellen wollen.

In unserem Archiv sind ungefähr 450.000 Artikel. Das ist eine Menge Text. Was macht man damit? Die Häufigkeit von einzelnen Begriffen auszählen ist wohl der Gedanke, der am naheliegendsten ist. Gleich mehrere Entwickler haben sich damit beschäftigt.

Thomas Pfeiffer (@codeispoetry) von den Webevangelisten hat eine Seite gebaut, die eine Häufigkeitskurve ausgibt. Welche Begriffe sie anzeigen soll, bestimmt der Nutzer. Genau wie den Zeitraum, der untersucht werden soll. Wer will, kann mehrere Wörter gegeneinander laufen lassen, sie werden in der Eingabe dann mit Komma getrennt.

Hier zum Beispiel “Helmut Kohl” gegen “Angela Merkel”:

Häufigkeit der Ausdrücke "Helmut Kohl" und "Angela Merkel" im Textarchiv von 1946 bis 2012. Quelle: http://webevangelisten.de/zeitapi/

Und, weil es so schön ist, hier noch ein Vergleich, “Apple” gegen “Microsoft”:

Häufigkeit der Begriffe "Apple" und "Microsoft" von 2008 bis 2012. Quelle: http://webevangelisten.de/zeitapi/?q=Apple%2C+Microsoft&s=2008&e=2012

Die gleiche Idee hatten die beiden Webentwickler von Impactdevelopment. Ihre Seite ermittelt ebenfalls Worthäufigkeiten, wirft jedoch eine Punktwolke aus.

Das Beispiel im Bild oben stammt von ihnen, es ist die Häufigkeit des Ausdruck “Computer”. Der erlebte demnach ganz offensichtlich zwischen Mitte der Achtziger und Mitte der Neunziger einen ersten Höhepunkt und ist seit 2008 geradezu inflationär.

Praktischerweise lässt sich nicht nur die Wort-Menge erfassen. Wer auf einen der Punkte klickt, erhält eine Übersicht mit den entsprechenden Artikeln samt Überschrift, Vorspann und Link. Außerdem kann die Grafik über einen Menüknopf als JPG, PNG, PDF und SVG heruntergeladen werden. Leider gibt es aber keinen Permanentlink zu den Suchergebnissen. Und werden mehrere Begriffe in das Suchfeld eingegeben, sucht die Maske nach Texten, in denen sie gemeinsam vorkommen. Gegeneinander laufen lassen kann man sie nicht.

Mila Frerichs analysiert mit seinem Werkzeug allein die Häufigkeit von politischen Parteien im Textkorpus. Nach Monat und Jahr sortiert wird ihr Auftauchen in Texten als Kurve angezeigt. Die dazu gehörenden Artikel gibt es unter der Grafik mit Überschrift, Vorspann und Link.

Zahl der Texte pro Monat und Jahr, die sich mit einer Partei befassen. Quelle: http://zeitparteien.herokuapp.com/

Das klappt prima, solange es nicht um die Piraten geht. Die tauchen schon lange vor der Parteigründung 2006 in Texten auf, im klassischen Zusammenhang. Die Abfrage unterscheidet jedoch nicht zwischen Seeräubern und Politikern.

Interessant ist die Jahresübersicht. So wurden 2010 und 2011 vor allem CDU und FDP in Artikeln erwähnt, 2012 hingegen führt die SPD in vielen Monaten die Erwähnungsliste an.

Die Häufigkeit von Städten und Ländern hat Newstral ausgewertet. Auf einer Weltkarte wird dargestellt, aus welchen Regionen wie viele Nachrichten berichten. Erfasst sind die Jahre 2010 bis 2012.

Nennung von Städten und Ländern in Texten von ZEIT und ZEIT ONLINE. Quelle: http://newstral.com/de/maps/

Die Karte vermittelt einen ganz guten Überblick, wo die Schwerpunkte der Berichterstattung liegen, es sind offensichtlich Deutschland und die USA. In Afrika wird es eher dünn.

Es gibt bereits einige Werkzeuge mehr, die die Schnittstelle nutzen.

Ein hinreißende Idee hatte Stefan Wehrmeyer, der die Seite Frag den Staat! betreibt. Er baut aus den Archivtexten ein Spiel. Drei Begriffe aus einem beliebigen Text müssen in einer Buchstabenmatrix wiedergefunden werden. Leider ist das Programm fehlerhaft, manchmal versteckt es nur zwei Begriffe in der zufällig erzeugten Matrix, manchmal fünf – wobei sich dann nicht alle korrekt markieren lassen.

Wortsuche in der Buchstaben-Matrix, basierend auf Artikeln. Quelle: http://stefanwehrmeyer.com/projects/zeitwort/

Trotzdem ist es ein Beispiel, das demonstriert, welche Möglichkeiten in einer offenen Schnittstelle stecken. Nun fehlen noch Anwendungen, die versuchen, verschiedene Aspekte miteinander zu verknüpfen. Also beispielsweise zeitliche oder inhaltliche Zusammenhänge. Wie viele Berichte gibt es zu Flugzeugabstürzen, und sind es mehr oder weniger als zu Zugunglücken? Spannend wäre sicher auch eine sogenannte Sentiment Analyse: Sind Texte über Angela Merkel eher positiv oder eher negativ?

Kategorien: Datenvisualisierung

Wir hängen an der Wasserflasche

Von 27. November 2012 um 07:46 Uhr

Die Deutschen lieben Mineralwasser. Nicht nur, dass sie zu den größten Konsumenten weltweit gehören; der Durchschnittsdeutsche trinkt auch viel mehr abgefülltes Wasser als früher. Noch im Jahr 1970 lag der jährliche Verbrauch pro Kopf bei rund 13 Litern Mineral- und Heilwasser. Mittlerweile hat sich die Menge verzehnfacht. Hinzu kommt ein Pro-Kopf-Verbrauch von gut fünf Litern Quell- und Tafelwasser.

Womöglich ist der Verbrauch derart angestiegen, weil man sich mit steigendem Wohlstand lieber abgefülltes Mineralwasser gönnt, statt schnödes Trinkwasser aus der Leitung zu zapfen. Dabei ist dessen Qualität mindestens genauso gut, sagen Verbraucherschützer – und Leitungswasser kostet auch viel weniger. Zwischen den Bundesländern gibt es allerdings große Unterschiede, wie die Grafik zeigt. In Bayern, Hamburg, Niedersachsen und Schleswig-Holstein war Leitungswasser im Jahr 2010 besonders günstig, im Saarland, Sachsen und Thüringen besonders teuer.

Unter den abgefüllten Wässern ist Mineralwasser der absolute Favorit der Konsumenten. Das Gesetz definiert genau, wann ein Wasser als Mineralwasser verkauft werden darf. Es muss aus unterirdischen, vor Verunreinigung geschützten Wasservorkommen stammen und darf laut Gesetz fast gar nicht verändert werden. Die Abfüller dürfen es filtern, belüften, ihm Kohlensäure entziehen oder hinzufügen. Um als “Natürliches Mineralwasser” gehandelt zu werden, braucht ein Wasser zudem eine amtliche Anerkennung.

Heil- und Quellwasser stammen ebenfalls aus unterirdischen Quellen. Doch während Heilwasser als Arzneimittel gilt, besonders mineralstoffreich sein muss und seine gesundheitsfördernde Wirkung sogar wissenschaftlich belegt sein muss, sind die Anforderungen an Quellwasser weniger streng. Tafelwasser ist im Gegensatz zu den anderen Wässern kein Naturprodukt, sondern kann auch vom Hersteller zusammengemischt werden, etwa aus Leitungswasser, Mineralwasser, Sole, Kochsalz oder Meersalz und weiteren Zusatzstoffen.

Besonders beliebt sind Mineralwässer mit wenig Kohlensäure und stille Wässer ohne und mit Geschmack. Ihr Absatz hat in den vergangenen Jahren stark zugenommen, während der Verkauf von Sprudelwasser hingegen leicht sank. Auch Erfrischungsgetränke auf Mineralwasserbasis verkaufen sich gut. Fassbrause sei der neue Trend, sagt der Mineralwasserverband, obwohl sie “eigentlich auf eine lange regionale Tradition zurückblicken” könne.

Den Branchenvertretern zufolge gibt es in Deutschland über 500 verschiedene Mineralwässer aus regionalen Brunnen. Die Karte zeigt: Ein beträchtlicher Teil der Wässer wird auch regional vermarktet. Besonders hoch ist die Quote in Nord- und Ostdeutschland. Allerdings ist die Größe der vom Branchenverband ausgewiesenen Gebiete sehr unterschiedlich, und gerade der Norden und Osten fallen besonders groß aus. Gut möglich, dass unter den dort gehandelten und in der Statistik als “regional” ausgewiesenen Mineralwässern auch solche sind, die über weite Strecken transportiert werden – beispielsweise von Südthüringen nach Berlin. Auffällig ist dennoch, dass ausgerechnet Bayern als relativ großes Flächenland den geringsten Absatzanteil an regionalen Wässern aufweist.

Nur wenige der deutschen Abfüller verkaufen ihr Wasser dem Verband zufolge international. Ebenso wird nur wenig des hier konsumierten Wassers aus dem Ausland eingeführt. Der Importanteil am Umsatz mit Mineral- und Heilwasser, gemessen in Litern, liegt seit Jahren relativ konstant zwischen acht und neun Prozent. Die Wässer, die wir einführen, kommen allerdings auch aus exotischen Gegenden. Aus den Einfuhrdaten des Bundesamtes für Statistik geht beispielsweise hervor, dass der Löwenanteil an importiertem Mineralwasser ohne Kohlensäure aus Frankreich kommt. Aber eine kleine Menge, vermutlich hochpreisiges Luxus-Wasser , stammt von den Fidschi-Inseln. Auch aus Norwegen, Russland, den USA, selbst aus den Vereinigten Arabischen Emiraten und Saudi-Arabien wird Mineralwasser ohne Kohlensäure nach Deutschland importiert. Ob das Wasser auch in der Wüste abgefüllt wurde, verrät die Statistik freilich nicht.

Importiertes kohlensäurehaltiges Mineralwasser kommt überwiegend aus Italien, das Tafelwasser aus den Niederlanden. Gezuckertes Import-Wasser, das nicht unbedingt Mineralwasser sein muss, aber sein kann, stammt vor allem aus Frankreich, Österreich, Dänemark und der Türkei. Und schließlich gibt es noch eine Kategorie von Importwasser, die Mineralwasser ausdrücklich ausschließt, aber Eis und Schnee mit einbezieht. Für solches Wasser sind die Niederlande unser größter Lieferant. Aber winzige Mengen kommen auch aus der Wüste der Vereinigten Arabischen Emirate, von den weit entfernten Salomonen – und sogar aus der Antarktis.