Offene Daten – offene Gesellschaft
Kategorie:

Datenquelle

Tornado-Spuren

Von 12. Juni 2012 um 09:57 Uhr

Tornados in den USA zwischen 1950 und 2006, Vislualisierung: John Nelson, Link: http://uxblog.idvsolutions.com/2012/05/tornado-tracks.html, Quelle: NOAA

Wie man aus offenen Daten schnell praktischen Nutzen zieht, macht ein amerikanischer Blogger vor. John Nelson fand bei data.gov, dem Open-Data-Portal der US-Regierung einen Datensatz vom Sturmvorhersage-Zentrum des Landeswetterdienstes über Tornados.

In dem sind die Routen aller bekannt gewordenen Tornados von 1950 bis 2006 verzeichnet – beziehungsweise jeweils der Anfangs- und der Endpunkt der Stürme. Auch die Stärke auf der sogenannten Fujita- oder F-Skala ist vermerkt.

Nelson baute aus den 50 Megabyte an Daten eine Grafik, die sofort sichtbar macht, in welchen Regionen der USA besonders viele Tornados beobachtet werden. Nachdem er dafür viel Aufmerksamkeit bekam, erweiterte er das um eine Aufschlüsselung nach der Stärke der Tornados.

Das ergab einerseits eine interessante – wenn auch leider statische – Visualisierung. Andererseits sieht die Grafik auch einfach gut aus, weswegen Nelson sie nun über einen entsprechenden Anbieter als Poster verkauft, je nach Größe für 9,40 Dollar bis 94,80 Dollar.

Verlauf und Stärke von Hurrikans in Nordamerika, Quelle: NOAA, Link: http://www.csc.noaa.gov/hurricanes/#

Das ist schick, wenn auch nicht unbedingt wissenschaftlich. Wer den Verlauf solcher Stürme genauer verfolgen will, sollte zur National Oceanic and Atmospheric Administration (NOAA) gehen, die die Daten veröffentlicht hat. Dort gibt es viele zusätzliche Informationen zu den historischen Sturmdaten.

Und bei ihr gibt es auch eine Karte mit Sturmdaten. Die hat den Vorteil, dass sie den tatsächlichen Verlauf der Stürme darstellt und nicht nur den Anfangs- und Endpunkt. Dort ist dann auch zu erkennen, in welchen Regionen sie entstehen und bis wohin sie ziehen.

Die historischen Kartendaten im Übrigen sind wie viele Daten des amerikanischen Wetterdienstes im Shapefile-Format gespeichert. Das kann mit quelloffenen Programmen bearbeitet werden.

SNCF stellt offene Daten zur Verfügung

Von 6. Juni 2012 um 15:22 Uhr

Informationstafel am Pariser Bahnhof Gare de l'Est © THOMAS SAMSON/AFP/Getty Images

Der deutschen Bahn müssen Informationen über ihre Züge und deren Pünktlichkeit geradezu abgerungen werden. Die französische SNCF stellt ihre Daten hingegen frei zur Verfügung.

Zwar veröffentlicht die Bahn hierzulande, welcher Zug wie viel Verspätung hat. Doch gibt es keine Datenbank, in der all diese Daten abgelegt werden – und die damit als Quelle neuer Anwendungen dienen könnte. Daher muss zum Beispiel der “Zugmonitor” der Süddeutschen Zeitung sich die Informationen mühsam zusammensuchen, um sie dann in einer übersichtlichen Grafik darstellen zu können.

Eine solche Grafik hat die französische Staatsbahn SNCF nicht. Aber sie hat nun ein Open-Data-Portal. Dort können die Informationen zur Pünktlichkeit des TGV dann als .csv-Datei heruntergeladen und damit problemlos weiterverarbeitet werden.

In dem Portal will die SNCF schrittweise all ihre Daten anbieten, seien es Zugverbindungsdaten, Bahnhöfe oder Fahrpläne. Außerdem wird um Rückmeldung und Kritik gebeten, um das Ganze gemeinsam weiterentwickeln zu können. Als Lizenz nutzt die SNCF die Open Database License ODbL, die es erlaubt, damit auch kommerzielle Anwendungen zu bauen.

Ein Lob dafür. Soweit sind die Verkehrsanbieter in Deutschland noch nicht. Zwar haben viele inzwischen Schnittstellen eingerichtet, um ihre Daten nutzen zu können, beispielsweise hier der Verkehrsverbund Berlin-Brandenburg. Doch wollen sie alle nicht, dass andere mit ihren Informationen Geld verdienen. Was kurzsichtig ist, würde doch jedes erfolgreiche Unternehmen Steuern zahlen. Was alle zugute kommt, auch den vom Staat bezuschussten Verkehrsanbietern.

Kategorien: Datenquelle

Wie Inhaftierung aus der Luft aussieht

Von 4. Juni 2012 um 17:18 Uhr

Luftbilder von Gefängnissen in den USA Quelle: http://www.prisonmap.com / Screenshot ZEIT ONLINE

Auch das sind Daten. Und was für welche.

Auf der Seite Prisonmap werden Luftbilder von amerikanischen Gefängnissen gesammelt. Zwei Dinge fallen dabei sofort auf: Es sind viele. Und es gibt offensichtlich Bundesstaaten und/oder Konzerne, die immer denselben Typ Gefängnis bauen.

Erfinder Josh Begley will damit visualisieren, dass die USA das Land auf der Welt mit den meisten Gefängnissen sind.

Aufgrund der enormen Menge an Gefängnissen sind auf der Seite nur die 700 besten Fotos zu sehen. Die komplette Datenbank mit fast 5.000 “correctional facilities”, ein Euphemismus für Haftanstalt, findet sich hier.

Als Basis für seine Bildersuche diente Begley eine Datenbank mit den Geokoordinaten amerikanischer Gefängnisse. Die hat die Prison Policy Initiative zusammengestellt, die versucht, die Wirkung massenhafter Gefängnisstrafen auf die Gesellschaft zu thematisieren.

Via @venohr

Kategorien: Datenquelle

Wo das deutsche Internet wohnt

Von 30. Mai 2012 um 17:35 Uhr

Gesamtzahl der Domainanmeldungen in Deutschland 2011 Quelle: denic

Die Zahl der .de-Domains, die jedes Jahr registriert werden, sinkt. Seit mehreren Jahren schon veröffentlicht die zentrale Registrierungsstelle Denic, wo in Deutschland wie viele Domains angemeldet sind. Die Zahlen für 2011 sind nun verfügbar.

Hier ein paar davon: Am 31. Dezember 2011 gab es demnach in Deutschland 13,8 Millionen Domains. Inzwischen sind es allerdings bereits mehr als 15 Millionen. Damit ist die Adresse .de die am häufigsten vergebene Länderadresse der Welt und die zweithäufigste überhaupt. Übertroffen wird sie nur von .com-Domains. Allerdings holt die Endung .net auf und liegt kurz hinter .de auf Platz drei.

Konkurrenz social media

Das klingt alles nach viel, jedoch wird die Zahl der Neuanmeldungen kleiner. Zu Zeiten der dotcom-Blase waren es mehr als zwei Millionen im Jahr. Derzeit sind es noch um die 700.000. Das hat zwei Gründe. Zum einen wird der Namensraum knapper. Angesichts der vielen Domains fällt es schwer, sich noch aussagekräftige neue einfallen zu lassen. Zum anderen konkurriert die Denic inzwischen mit sozialen Netzwerken. Noch vor ein paar Jahren habe jeder Privatmann eine eigene Website haben wollen, sagt Sprecherin Stefanie Welters. Inzwischen genüge vielen ein Account, beispielsweise bei Facebook.

Noch ein paar Zahlen: Wie jedes Jahr seit 1998 (bis dahin war es München) führt Berlin die Liste der Orte an, in denen absolut die meisten Domains registriert sind: 840.324. Angesichts der hohen Einwohnerzahl kein Wunder. Danach folgen München (609.152) und Hamburg (556.460).

Wird die Einwohnerzahl berücksichtigt, sieht das Bild etwas anders aus. Dann führt bei den kreisfreien Städten Osnabrück mit 749 .de-Domains pro 1.000 Einwohner. Platz zwei ist dann wieder München, Platz drei allerdings Bonn. Bei den Landkreisen fällt Amberg-Sulzbach in Bayern auf. Schon im vergangenen Jahr waren dort die meisten Domains pro Einwohner registriert, damals 715 pro 1.000 Einwohner. In diesem Jahr sind es nun gar 882 pro 1.000 Menschen und damit wieder Platz eins.

Domainhändler

Was aber nicht bedeutet, dass dort besonders viele Menschen ins Netz wollen. Es spricht eher dafür, dass irgendwo in dem Landkreis ein Domainhändler seinen Sitz hat. Das kann die Denic-Sprecherin zwar nicht bestätigen, hält es aber für wahrscheinlich. Sicher ist sie sich dagegen, dass in Osnabrück ein großer Händler sitzt. Trotz solcher Ausreißer hat Deutschland einen “hohen Anteil von Privatnutzern im Vergleich zu anderen Ländern”, wie Welters sagt.

Erkennen lässt sich in den Daten auch, welche Regionen “aufwachen” und nun verstärkt ins Netz gehen. Coburg beispielsweise. Die Stadt liegt bei Neuanmeldungen weit über dem Bundesdurchschnitt, scheint also im Aufschwung begriffen. Genau wie Ansbach und Memmingen. Vielleicht ist aber auch nur ein Domainhändler dorthin umgezogen. Sachsen-Anhalt hingegen schläft noch immer zuverlässig und belegt bei den Bundesländern wieder den letzten Platz.

Wer mit den Daten von 2011 herumspielen will, hier sind sie als Excel-Tabelle.

Goldgrube Pharma-Daten

Von 23. Mai 2012 um 15:40 Uhr

Visualisierung von Medikamenten-Verkaufsdaten der US-Pharmafirma Help /Quelle: http://helpineedhelp.com/whatswrongus/

Google, Facebook und Twitter sind so groß und wissen so viel, dass sie auch etwas über den Gesundheitszustand der Welt sagen können. Das zeigt: Daten können völlig neue Aussagen enthalten, wenn sie in einem neuen Zusammenhang betrachtet werden. Die Erfinder von Help Remedies zeigen das sehr anschaulich.

Help vertreibt in den USA Medikamente. Das Start-up versucht, mit Konzepten wie Transparenz, Design und gutem Gewissen Tabletten zu verkaufen. Auf ihrer Website wirbt die Firma mit Schlagworten wie “less greed”, “less dyes” oder “less confusion”. Die Macher wollen also nicht so gierig sein wie andere und spenden fünf Prozent der Einnahmen, sie wollen keine bunten aber nutzlosen Farbstoffe in ihren Pillen einsetzen und sie wollen klarer sagen, was ein Medikament tut. Daher haben Schlaftabletten auch nicht irgendeinen ausgedachten Namen, sondern werden als “Help – I can’t sleep” vermarktet, Hilfe, ich kann nicht schlafen.

Und sie hatten noch eine Idee: Die Informationen darüber, wo welche dieser Medikamente am häufigsten gekauft werden, hat Help nun anonymisiert und in einer Grafik aggregiert.

Was hast Du, USA?, fragt die Seite und will die kleinen Wehwehchen und Probleme sichtbar machen, mit denen sich die Menschen so plagen. Demnach werden die Texaner vor allem von ihren Bronchien geplagt, die Bürger in Kalifornien und Arizona von verstopften Nasen und die in Montana und Wyoming von Schlaflosigkeit. In Colorado und West-Virginia sind hingegen Blasen an den Füßen das größere Problem.

Das Ganze kommt witzig und bunt daher und ist eine geschickte Werbekampagne. Einerseits.

Andererseits stecken darin gleich zwei größere Themen. Das erste ist, wie oben bereits angerissen das Phänomen Big Data. Große Datenmengen können überraschende Aussagen enthalten, an die ursprünglich niemand dachte. Als die Google-Suche erfunden wurde, war sicher niemandem klar, dass die Daten einst taugen würden, den Gesundheitszustand der Welt zu beschreiben. Den Kunden von Help war wohl kaum klar, dass sie helfen würden, einen Krankheitsatlas der USA zu erstellen.

Und das ist das zweite große Thema: Immer mehr Unternehmen entdecken gerade den Datenschatz, auf dem sie sitzen und versuchen, ihn auszubeuten. Help ist da eher ein positives Beispiel. Schließlich sind die Daten anonymisiert, und Angaben zu Geschlechtskrankheiten oder psychischen Erkrankungen gibt es nicht.

Es gibt aber auch negative Beispiele für den Umgang mit so sensiblen Daten. Die amerikanische Apothekenkette Walgreen weiß ebenfalls sehr genau, was Kunden für Medikamente kaufen. Und verkauft diese Daten an sogenannte Data-Miner – an Firmen also, die sie auswerten und aufbereiten. Anschließend stehen die Daten gegen eine Gebühr Pharmafirmen zur Verfügung. Die können damit beispielsweise erfahren, welche Ärzte besonders viele Medikamente verschreiben und welche das sind. Was, neutral gesagt, völlig neue Möglichkeiten der Werbung eröffnet.

Das Programm nennt sich “Operational Data Share” und bietet laut Eigenwerbung nahezu Echtzeitinformationen über verkaufte Medikamente in den Walgreens-Filialen in den USA.

Walgreen-Kunden fanden es nicht so lustig, zum Produkt gemacht zu werden. Sie haben die Firma deswegen gerade verklagt.

Weltbank stellt alle Studien unter CC-Lizenz ins Netz

Von 21. Mai 2012 um 15:19 Uhr

Wie viel Prozent der Spanier nutzen das Internet? Wie hoch ist die Jugendarbeitslosigkeit in den USA? Nimmt der griechische Staat, gemessen an der Wirtschaftsleistung des Landes, wirklich weniger Steuern ein als der Deutsche? Wie groß ist die Fläche, die in Afghanistan durch Landminen verseucht ist? Hat Venezuela das Millenniumsziel schon erreicht, die Zahl der Armen zu halbieren? Wie gut ist die Ausbildung der Menschen in der arabischen Welt?

Antworten auf diese und viele andere Fragen finden sich in der Online-Datenbank der Weltbank. Schon seit längerer Zeit stellt die Weltbank der Öffentlichkeit viele ihrer Statistiken zur Verfügung. Zum Teil reichen die Daten Jahrzehnte zurück – eine echte Fundgrube. Nicht alle Statistiken sind bisher öffentlich, aber die wichtigsten lassen sich in der Online-Datenbank oder über eine Programmierschnittstelle (API) durchsuchen. Man kann sie auch herunterladen und dann mit Excel oder anderen gängigen Tabellenkalkulationsprogrammen weiterverarbeiten.

Jetzt will die Weltbank ihre Arbeit noch stärker in die Öffentlichkeit tragen. Ab dem 1. Juli sollen alle neuen Publikationen von Weltbank-Mitarbeitern im Netz frei verfügbar sein, ebenso neue Forschungsarbeiten, die von der Bank finanziert wurden. Damit sei jedermann “frei, die meisten Wissensprodukte und Forschungsergebnisse der Bank zu nutzen, wiederzuverwenden und weiterzuverbreiten, sei es zu kommerziellen oder nicht kommerziellen Zwecken”, teilt die Institution mit.

Einzige Bedingung: Die Weltbank muss als Urheber genannt werden (Creative-Commons-Lizenz CC BY). Um das gesammelte Wissen möglichst leicht zugänglich zu machen, will die Weltbank die Dublin-Core-Standards für Metadaten und das Open-Archives-Initiatives-Protokoll befolgen.

Was bringt das der Entwicklungspolitik? Darüber wollen zwei Weltbank-Leute am heutigen Montag mit Peter Suber, dem Direktor des Harvard Open Access Project, und Michael Carroll, Gründungsmitglied von Creative Commons diskutieren. Wer wollte, konnte vorab Fragen einschicken oder kann sich über Twitter (Hashtags: #wblive oder #openaccess) an der Debatte beteiligen.

Kategorien: Datenquelle

Die Rolle deutscher Bundesligaspieler im Fußball und Basketball

Von 10. Mai 2012 um 15:56 Uhr

In unserer “Alles außer Fußball” Kolumne mit Arne Friedrich, Thomas Hitzlsperger und Corny Littmann kam das Gespräch auf eine mögliche Quotenregelung für deutsche Nachwuchskicker. Die Interviewpartner waren unterschiedlicher Meinung, wie es um die Förderung der heimischen Fußballer bestellt ist. Gerade jetzt vor der Europameisterschaft rückt die Nationalmannschaft wieder in den Mittelpunkt. Wie können sich talentierte deutsche Profis in der höchsten Liga durch Spielpraxis entwickeln und sich für die große internationale Fußballbühne empfehlen?

Wir haben das zum Anlass genommen, und uns mit Hilfe einer Datenauswertung ein genaues Bild über die aktuelle Situation in der Bundesliga verschafft.

Auf der offiziellen Website der Bundesliga werden für die einzelnen Spieler auf die Minute genaue Einsatzzeiten aufgeführt. Wir haben die Daten der sieben besten Teams (gleichbedeutend mit der Qualifikation für europäische Wettbewerbe) der Saison 2011/12 eingesammelt und dabei die Spieler im Datensatz mit ihrer Nationalität versehen. Das Ergebnis: Im Schnitt bestreiten deutsche Spieler rund 52 Prozent der Einsatzzeiten in diesen Topteams. Das detaillierte Ergebnis zeigt jedoch, wie unterschiedlich die Vereine auf deutsche Spitzenkräfte setzen.

Im Fußball sind Tore das Wichtigste. Wie schaut es also bei diesen mit der Verteilung aus? Im Schnitt der sieben Topmannschaften kommen die deutschen Fußballer auf rund 42 Prozent der erzielten Tore. Auch hier lohnt der Blick auf die unterschiedlichen Ausprägungen in den Teams:

Bayer Leverkusen setzt mit Abstand am stärksten auf deutsche Spieler, gefolgt von Bayern München, die in den letzten Jahrzehnten traditionell das spielerische Grundgerüst der Nationalmannschaft stellen. Beim frischgebackenen Meister Borussia Dortmund hingegen sind eindeutig internationale Spieler fürs Toreschießen zuständig. Bei Bundesligisten wie Schalke 04 und der VfB Stuttgart ist ein genereller Trend zu ausländischen Spielern zu beobachten. So lange die deutsche Nationalmannschaft erfolgreichen Fußball spielt, scheint noch kein Diskussionsbedarf über Quoten zu bestehen, man darf auf das Abschneiden bei der EM gespannt sein.

Basketball

Auch im Basketball ist Bayern München mittlerweile in der 1.Bundesliga angekommen. Hier wird ebenfalls verstärkt auf deutsche Spieler gesetzt. In unserem Gespräch mit dem ehemaligen Bundestrainer und jetzigen Trainer der Basketballer des FC Bayern, Dirk Bauermann, ging es um die Rolle der deutschen Spieler in der Liga und um die Perspektiven für den heimischen Nachwuchs. In der Vorbereitung des Gesprächs wollten wir es genau wissen: Welche konkreten Anteile an der Gesamtspielzeit haben die heimischen Basketballer in der höchsten deutschen Spielklasse?

Da im Basketball auf die Sekunde genaue Spielstatistiken vorliegen, konnten wir leicht eine Gesamtrechnung für die acht besten Teams der Hauptrunde (qualifizierte Teams für die Playoffs) aufstellen. Dazu wurden auch hier Nationalitäten der einzelnen Spieler zugeordnet, um eine sattelfeste Unterscheidung in den Daten zu haben. Das Ergebnis zeigt, wie stark die Vereine auf ausländische Kräfte setzen:

Außerdem wollten wir wissen, wie hoch die Verteilung bei der Punkteausbeute in den Vereinen war. Rechnet man die Hauptrundenspiele aller acht Playoffteilnehmer zusammen, kommen die deutschen Korbjäger auf einen mageren Anteil von knapp 20 Prozent der erzielten Punkte. Dieses Diagramm zeigt, wie schwer es deutsche Spieler in den Vereinen haben:

Diese Statistiken legen gerade beim Basketball den Finger in die Wunde. Regeländerungen sollen nun den deutschen Nachwuchs fördern. So gilt in der neuen Saison der Grundsatz: Im Kader dürfen nicht mehr als sechs Ausländer sein. Dirk Bauermann geht sogar weiter und fordert, dass in der ersten Liga jederzeit einer der fünf Akteure auf dem Feld ein deutscher Spieler sein muss.

Luftbild-Karten selbstgemacht

Von 18. April 2012 um 10:03 Uhr

Balloon-Mapping, die Grundausrüstung / Quelle: http://publiclaboratory.org/wiki/balloon-mapping-materials (CC BY-NC-SA 2.0)

Monopole nützen wenigen, Technik und Daten, die jedem zugänglich sind, nützen vielen. Ein Beispiel dafür sind Bilder der Erde. Früher konnten sich nur Geheimdienste großer Staaten Satelliten- und Luftaufnahmen leisten, dann große Firmen, dann kam Google und machte sie der Welt zugänglich. Mit dem Ergebnis, dass inzwischen unzählige Angebote diese Bilder nutzen.

Der nächste Schritt dieser Demokratisierung ist, auch die Herstellung solcher Bilder für jeden möglich zu machen. Dieser Idee hat sich eine Bewegung namens Grassroots-Mapping verschrieben. Die Fans basteln Ballons, um Kameras in den Himmel steigen zu lassen und so Bilder zu sammeln.

Infrarot-Aufnahme des Gowanus-Kanals in New York. Freiwillige beobachten mit von Ballons gemachten Fotos, ob Abwässer eingeleitet werden / Quelle: http://mapknitter.org/map/view/2011-7-31-brooklyn-gowanus-ir (Public Domain)

Denn Googles Ergebnisse sind zwar für jeden kostenlos sichtbar, die Rohdaten aber nicht. Denn sie gehören noch immer einem Konzern – bilden also weiterhin ein Monopol. Weswegen Google auch durchaus darüber nachdenkt, Geld für seine Karten zu nehmen. Das störte auch schon bei den im Internet verfügbaren Straßenkarten viele, weswegen erfolgreiche Projekte wie Open Street Map entstanden und Nutzer die Daten selbst sammelten.

Das Public Laboratory for Open Technology and Science hat nun ein Balloon Mapping Kit zusammengestellt, mit dem jeder für wenig Geld Luftbilder erstellen und zu Karten bauen kann. Angeboten wird der Bausatz für 85 Dollar, es fehlen dann noch eine Kamera und Helium für den Ballon. Die Karten-Software namens Map Knitter ist kostenlos.

Auf der Seite des Public Laboratory gibt es viele Bauanleitungen und Tipps für solche Projekte. Beispielsweise das Soda-Bottle-Rig. Der Halterahmen, gebaut aus PET-Flaschen und Gummis schützt die Kamera bei Stürzen und verringert ihr Schlingern in der Luft.

Wozu das Ganze? Nun, beispielsweise um sich einen Überblick über eine Ölpest zu verschaffen. Oder um das Ausmaß von Demonstrationen wie Occupy zu dokumentieren. Oder, oder.

Übrigens, wer kein Helium auftreiben kann, das funktioniert natürlich auch mit Drachen.

Für viele sinnvoll werden die Daten allerdings nur, wenn sie auch irgendwo gesammelt werden. Daher hat das Public Laboratory dafür eine Datenbank aufgesetzt. Fehlt eigentlich nur noch eine Plattform, die Luftbilder aus aller Welt sammelt und zu einer Weltkarte baut.

Via Google Lat Long

Kategorien: Datenprojekt, Datenquelle

Tirol öffnet seine Regierung (ein bisschen)

Von 4. April 2012 um 17:10 Uhr

Open Government Data heißt, dass Daten, die sowieso in der öffentlichen Verwaltung anfallen, Jedermann zur Verfügung gestellt werden. Nicht wenige Länder, Städte und Gemeinden begreifen das als Chance, sich ihren Bürgern zu öffnen und davon noch zu profitieren. Die Tatsache, dass das kleine österreichische Bundesland Tirol nun ein eigenes Datenportal eröffnet hat, kann daher durchaus als Beleg für einen Trend gelten.

Seit dem 2. April gibt es die Tiroler Open-Data-Seite. Viele Daten sind noch nicht darauf, aber es ist ein Anfang. Vor allem aufgrund der Erkenntnis, die dahinter steht. Zitat von der Website: “Das Land Tirol hat sich genau mit den Schwierigkeiten und Herausforderungen der Öffnung des bestehenden Datenfundus auseinandergesetzt und die Potenziale offener und standardisiert verknüpfbarer Daten erkannt. Nicht zuletzt tragen frei zugängliche Daten dazu bei, die öffentliche Verwaltung transparenter zu machen.”

Was für Daten gibt es also? Bislang sind es vor allem geografische Informationen. Insgesamt zwölf Datensätze über die Lage von Seen, Flüssen und Schutzgebieten in Tirol sowie einer mit den Mountainbike-Routen im Bundesland.

Wie gesagt, ein Anfang. Oder, wie es der zuständige Landrat formuliert, ein “Pilotversuch”.

Allzu spannende Projekte werden sich aus den wenigen Datensätzen nicht entwickeln lassen. Trotzdem ist es lobenswert, damit überhaupt zu beginnen.

Kategorien: Datenquelle

US-Zensus 1940 veröffentlicht

Von 2. April 2012 um 12:37 Uhr

Ankündigung der Veröffentlichung der US-Zensusdaten 1940 Quelle: National Archive

Mehr als drei Jahre lang haben Archivare des National Archive in den USA daran gearbeitet, die Daten der Volkszählung aus dem Jahr 1940 zu digitalisieren.

Diese Daten sind ab dem heutigen Montag im Netz verfügbar und können durchsucht und heruntergeladen werden. Nutzungsbeschränkungen gibt es keine.

Durchgeführt wurde die Befragung damals eigentlich, um zu ermitteln, wie viele Sitze die einzelnen amerikanischen Bundesstaaten im Kongress zu beanspruchen haben, da sich diese Zahl nach der Bevölkerung richtet. Außerdem sollte dabei überprüft werden, wie korrekt die Geburtsregister geführt werden. Neben den Befragungen wurden dazu auch die Registerkarten ausgewertet – allerdings sind die dabei gewonnenen Daten nicht erhalten geblieben.

Doch auch ohne diese ist der Datenschatz gewaltig. Insgesamt 3,8 Millionen auf Mikrofilm gespeicherte Fotos mit den Fragebögen von mehr als 20 Millionen Menschen wurden gesichtet und aufbereitet. In diesen Bögen fragten die “Enumerators”, die Volkszähler, nicht nur nach Standardinformationen wie Name, Alter, Geschlecht, Hautfarbe, Bildung und Geburtsort. Sie wollten auch wissen, wie hoch das wöchentliche Einkommen des Befragten war, wo ihre Eltern geboren wurden und bei Frauen, wie oft sie verheiratet waren.

Die Frage nach dem Einkommen sorgte damals für heftige Debatten und ein republikanischer Senator versuchte, sie aus dem Bogen streichen zu lassen. Ohne Erfolg, doch konnten die Befragten die Antwort verweigern, wenn sie das wollten – es wollten aber nur zwei Prozent.

Die Daten böten heute einen historisch interessanten Einblick in die Zeit der großen Depression, schreibt das Nationalarchiv in der Ankündigung dazu auf seiner Website. Sie erzählen das Leben von 132 Millionen Amerikanern, in einer Zeit, als das Land sich durch Wirtschaftskrise und Weltkrieg wandelte.

Etwas mühsam ist allerdings die Suche darin. Denn verschlagwortet sind die Informationen nach den Befragungsbezirken von damals. Wer also seinen Großvater sucht, muss wissen, wo er damals wohnte und dann auf bereitgestellten Karten nachschauen, in welchem Befragungscluster (enumeration district) diese Adresse lag. Ein Personenindex ist in Arbeit, aber noch nicht fertig. Er soll in sechs bis neun Monaten verfügbar sein, wie es bei der Eröffnungsveranstaltung hieß.

Kategorien: Datenquelle