Offene Daten – offene Gesellschaft
Kategorie:

Datenforschung

Wikipedia: Über Israel und Hitler streitet man überall

Von 28. Mai 2013 um 15:21 Uhr
Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Konfliktthemen in der deutschsprachigen Wikipedia, Quelle: Mark Graham, Oxford Internet Institute

Die Wikipedia ist nicht nur eine Enzyklopädie. Sie ist auch ein soziales Experiment. Da sie dank der Zusammenarbeit vieler Menschen entsteht, bietet sie tiefe Einblicke, wer sich wo und wie stark für ein Thema interessiert. Sie ist ein riesiges Testfeld dafür, wie und worüber Menschen miteinander streiten, wie sie sich einigen und wie sie sich organisieren, um zusammenarbeiten zu können.

Mehrere Wissenschaftler haben genau das untersucht. Taha Yasseri, Anselm Spoerri, Mark Graham und János Kertész beobachteten für ihre Studie sogenannte Edit-Wars, Bearbeitungskriege, bei denen streitende Nutzer die Änderungen der Gegenseite immer wieder umschreiben oder gleich komplett rückgängig machen. Sie wollten wissen, ob es regionale Besonderheiten dabei gibt und was diese Debatten über die Menschen aussagen.

Sie taten das nicht nur, um etwas über Streits bei der Wikipedia zu erfahren, sondern auch um die Streitkultur an sich zu erforschen. Dass Religion und Philosophie die am stärksten debattierten Themen sind, wird niemanden verwundern, aber die Analyse lässt sich noch viel weiter treiben. Schon vorangegangene Untersuchungen haben einen Zusammenhang zwischen der Härte von Wikipedia-Debatten und der politischen und wirtschaftlichen Stabilität eines Landes gezeigt.

Was führt zur Eskalation, welche Verfahren fördern einen Konsens, wie organisieren sich die Gegner? All das könne man anhand von Wikipedia-Daten erforschen, schreiben Yasseri, Spoerri, Graham und Kertész in ihrer Studie, die 2014 in einem Buch erscheinen soll.

Weiter…

Kategorien: Datenforschung

Wo Amerikaner hassen

Von 13. Mai 2013 um 12:23 Uhr
Hate Map - Verteilung von homophoben Tweets zwischen Juni 2012 und April 2013 in den USA

Hate Map – Verteilung von homophoben Tweets zwischen Juni 2012 und April 2013 in den USA

Islamistischer Terrorismus ist nicht der einzige, den die USA fürchten. Mindestens ebenso bedrohlich sind sogenannte Hate Groups, religiöse und rechte Gruppierungen, die sich als Patrioten betrachten und deren Ziel es ist, den amerikanischen Staat und alles, was ihnen fremd erscheint, zu bekämpfen. Ihre Zahl ist in den vergangenen zehn Jahren stark gestiegen, als Barack Obama 2009 Präsident wurde, stieg die Zahl noch einmal stärker.

Eine auf Twitter basierende Studie zeigt nun, wie sich homophobe, rassistische und beleidigende Äußerungen gegenüber Menschen mit Behinderungen in den USA verteilen. Die Daten können zumindest ein Indiz dafür sein, wo solche Organisationen aktiv sind.

Die Forschergruppe, die die Karte erstellt hat, nennt sich Floating Sheep. Es sind fünf Geographen, die an verschiedenen Universitäten in den USA und in Großbritannien arbeiten und die sich immer wieder die Verteilung diverser Phänomenen anschauen und visualisieren.

Weiter…

Das Ende der Theorie: Data Driven History

Von 5. Oktober 2011 um 17:14 Uhr

Unter dem großspurigen Titel The End of Theory erklärte Wired-Herausgeber Chris Anderson vor einigen Jahren theoretische Konzepte kurzerhand für überflüssig. Die neuen, nun verfügbaren Datenmengen würden induktive Data-Mining-Verfahren ermöglichen, die nichts anderes wären als die Zukunft wissenschaftlicher Methodologie. Und zwar die einzige. Big Data, das Finden von Mustern in großen Datenbeständen, sei der “direkte Weg zur Wahrheit”.

Bislang ist Andersons Prognose nicht eingetreten, da auch große Datenmengen Modelle brauchen, mit deren Hilfe sie durchsucht werden können. Und da auch bei ihnen bewährte statistische Konstrukte nicht vernachlässigt werden dürfen. So schrieb beispielsweise die Ethnologin Danah Boyd, große Datensätze führten zu falschen Beobachtungen, würden Qualitätskriterien wie die Repräsentativität der Daten missachtet. Zitat: “Bigger Data are Not Always Better Data.”

Trotzdem blieb “Big Data” in den Naturwissenschaften nicht ohne Wirkung, die Möglichkeiten sind zu faszinierend. Nun hat dieser Gedanke auch die Geisteswissenschaften erreicht. Die rechnerbasierte Verarbeitung großer Datensätze könne revolutionäres Potenzial besitzen, glauben erste Wissenschaftler. Auf der Tagung .hist 2011 – Geschichte im digitalen Wandel hielt der Medienwissenschaftler Theo Röhle von der Universität Paderborn dazu einen anschaulichen Vortrag.

Das Erstaunliche daran: Die Debatte ist alt. In den USA gab es bereits in den 1950er Jahren eine lebhafte Diskussion darum, wie wichtig die Quantifizierung auch in der Geschichtswissenschaft ist. Das Internet nun scheint die klassische Theoriebildung der Historiker auf eine neue Grundlage zu stellen. Beispielsweise durch die Analyse von Worthäufigkeiten in Tageszeitungen. “Data Driven History” nennt es Röhler und hofft, damit nicht nur über die Moderne mehr zu erfahren, sondern beispielsweise auch über das Mittelalter. Immerhin sind viele Quellen inzwischen in digitaler Form vorhanden.

Weltraum für alle

Von 15. September 2011 um 18:08 Uhr

Der Trend geht wieder zur Marke Eigenbau. Auf Portalen wie Helloetsy oder DaWanda kann man handgemachte Unikate kaufen. Jenseits der Massenware sind Schreibtischlampen aus Heimarbeit, selbstgestrickte Kinderhosen, Geldbörsen aus Recyclingmaterial oder handverzierte Haarspangen die Bestseller. Raketen und Raumschiffe sucht man aktuell noch vergebens. Aber das könnte sich ändern. Denn die Nasa hat auf open.nasa.gov jetzt data.nasa.gov gestartet. Dort kann man unter anderem erfahren, aus welchen Materialien Raketen und Raumschiffe idealerweise gebaut werden sollten.

Die Datenmengen, die die Nasa auf data.nasa.gov ausliefert, sind exorbitant. Allein die Mission Earth Observing System Data and Information System (EOSDIS) hat mittlerweile ein Datenvolumen von drei Petabyte. Das entspricht in etwa der gesamten Datenmenge aller in der amerikanischen Library of Congress gespeicherten Inhalte. Und täglich kommen schlappe vier Terabyte hinzu. Eine weitere Mission, das Solar Dynamics Observatory, produziert täglich mehr als 1,5 Terabyte an Daten. Das sind mal eben knapp 500.000 Songs im MP3-Format.

Um diese Datenmengen erfassbar und einem breiten Publikum zugänglich zu machen, versucht die Nasa die Datensätze nun thematisch zu sortieren. Lagen zahlreiche Datensätze auch bisher auf diversen Nasa-Seiten öffentlich vor, sollen sie durch eine Bündelung im data.nasa.gov-Katalog nun übersichtlicher und zentralisiert aufrufbar sein. In neun Themenbereiche werden die zugänglichen Daten dabei untergliedert. Zu ihnen zählen unter anderem die Bereiche Erdbeobachtung, Aeronautik, Kosmologie, Life Sciences und Engineering.

Bereits 2010 hatte die Nasa im Rahmen der Open Government Initiative diverse Daten auf data.nasa.gov bereit gestellt. Aber erst jetzt können die Schätze systematisch durchsucht werden. An einem Ort. Allerdings sind die Angebote mehr als disparat. So sind manche überhaupt nur nach stundenlanger Recherche zu finden.

Um das Angebot weiterzuentwickeln, bietet data.nasa.gov dem User die Möglichkeit, die Bestände zu kommentieren oder in der Flut entdeckte Daten zu verlinken oder hochzuladen.

Wenn also erste Erfahrungen mit dem Eigenbau von Raumfahrzeugen vorliegen, können sie gerne der Nasa zu weiteren Verwendung übersandt werden.

Mehr Engagement dank Open Government

Von 7. Juli 2011 um 15:58 Uhr
Fix My Transport mySociety

Ende Juli soll das neue mySociety-Projekt starten: FixMyTransport

Ende Juli soll in Großbritannien ein neues Bürgeportal starten. FixMyTransport will helfen, Schäden und Probleme im öffentlichen Nahverkehr unkompliziert an die richtigen Adressaten zu senden, daher direkt an das zuständige Verkehrsunternehmen.

Die Idee dazu stammt von dem gemeinnützigen Unternehmen mySociety aus Großbritannien. Das steckt hinter zahlreichen Bürgerbeteiligungsprojekten, die längst ähnlichen Vorhaben in anderen Ländern als Vorbild dienen. Getrost kann mySociety daher als eine der Triebfedern im Bereich Open Government gelten.

So inspirierte das mySociety-Projekt FixMyStreet beispielsweise den Maerker Brandenburg oder auch die Seite SeeClickFix in den USA. Sämtlich Angebote, die es Bürgern erlauben, ihrer zuständigen Verwaltung Mängel im öffentlichen Raum zu melden, seien es nun kaputte Parkbänke oder gefährliche Straßenschäden. Für Behörden sind solche Seiten ein Kanal, über den sie gelöste Probleme an die Bürger zurückmelden können.

Transparenz herstellen und Beteiligung möglich machen – das sind die Grundsätze von mySociety. Dabei wollen die Initiatoren auch vor sich selbst nicht halt machen. Gerade erschienen zwei Studien über das Projekt. Fast ein Jahr lang wurden tausende von Nutzern befragt. Es gehe darum, eine Skala zu entwickeln, um Einfluss und Auswirkungen aller mySociety-Angebote miteinander vergleichen zu können, sagte Tobias Escher, Kommunikationswissenschaftler und Doktorand in Oxford.

Weiter…

Studie: 40 Fragen zu Open Data

Von 25. Mai 2011 um 13:12 Uhr

cover study open data

Drei Gruppen bringen die Entwicklung von Open Data voran: Zivilgesellschaft, Politiker und Beamte und Verwaltungsmitarbeiter, die als Bindeglied zwischen den beiden anderen fungieren. So beschreibt es eine eben veröffentlichte Studie der britischen Transparency Initiative. Der englischsprachige Bericht ist lesenswert, weil er einerseits die Strategien für Open Data in den Vorreiterländern USA und Großbritannien untersucht. Anderseits aber versucht, daraus mögliche Ansätze für jene Staaten abzuleiten, die im Sinne offener Daten als “Schwellenländer” und “Entwicklungsländer” gelten.

In der Studie (pdf, Creative Commons) analysiert die Autorin Becky Hogge zuerst einmal die beiden großen Datenkataloge data.gov und data.gov.uk, die Großbritannien und die USA veröffentlicht haben. Dabei wird auch die Rolle von Einzelpersonen beleuchtet, vor allem die des “Popstars” Tim Berners-Lee, der großen Einfluss auf die britischen Open-Data-Bemühungen hat.

Sind die Strategien der USA und Großbritanniens auch für andere Länder geeignet? Um das zu klären, befragte Hogge diverse Spezialisten aus dem entwicklungspolitischen Bereich. Dabei geht es um Informationsfreiheitsgesetze, darum, welche Datensätze von Interesse sind und darum, in welcher Lage sich die Zivilgesellschaft in verschiedenen afrikanischen Ländern befindet. Schließlich wird die Rolle von Geberländern diskutiert – Staaten also, die versuchen, Open Data an anderen Orten zu fördern.

Die Geber werden abschließend als möglicher vierter Akteur identifiziert, neben Zivilgesellschaft, Verwaltung und Politik. Die Autorin warnt aber davor, lediglich Geld in vage Open-Data-Projekte zu investieren. Könnten offene Daten doch nur zu einer Kultur werden, wenn es auch in anderen Bereichen Fortschritte gibt, eben bei Gesetzen und den Möglichkeiten der Zivilgesellschaft.

Um einschätzen zu können, ob Open-Data-Ideen gelingen können, bietet die Studie auf zwei Seiten gut 40 Fragen als Checkliste an (S. 37f). Dieser Fragenkatalog ist das Kernstück der Studie und ein nützliches Instrument, mit dem sich Open-Data-Prozesse generell messen lassen.

Für die Untersuchung hat die britische Technologiejournalistin Hogge im April 2010 zahlreiche Interviews geführt. Sie selbst ist Mitglied des Vorstands der britischen Open Knowledge Foundation.

Die eigenen Nutzungsdaten als Entscheidungshilfe

Von 27. April 2011 um 17:13 Uhr
vw stechuhr

Stechuhr im VW-Werk Wolfsburg in den 70er Jahren

Früher war es die Stechuhr. Ein Zeiterfassungssystem, das automatisch Anfang und Ende der Arbeitszeit festhielt. Im digitalen Zeitalter lässt sich nahezu jeder Tastenschlag, jeder Mausklick oder schlicht jede Interaktion mit einem digitalen Gerät aufzeichnen. Frank Rieger vom Chaos Computer Club fasste das vor einiger Zeit in seinem Text “Der Mensch wird zum Datensatz” gut zusammen.

Doch immer mehr Leute messen freiwillig ihr Verhalten. Oder besser: Lassen messen. Zahlreiche Dienste im Internet bieten die Erfassung persönlicher Daten und deren Auswertung an. Seien es Jogger, die ihre Laufstrecken aufnehmen. Andere beobachten ihr Finanzhandeln, halten ihre Reisebewegungen fest oder monitoren ihr Schlafverhalten.

Eine zentrale Rolle kommt dabei den Mobiltelefonen zu. Sie werden in der Regel nur von einer Person genutzt, bleiben nahezu immer in unmittelbarer Umgebung derselben und werden immer seltener ausgeschaltet. Neuere Modelle besitzen Internetanbindung, GPS, einen Kompass und Beschleunigungssensoren.

Aufgeschreckt durch die heimlichen Aufzeichnungen der iPhone Software, die unlängst einer breiten Öffentlichkeit bekannt wurde, haben sich die Nutzer in den letzten Tagen viele Gedanken über persönliche Daten gemacht. Erfreulicherweise wird im Zusammenhang mit dieser Thematik auch immer wieder auf die Berichterstattung von ZEIT ONLINE und die Mobilfunkdaten des Grünen-Politikers Malte Spitz hingewiesen. Um die Visualisierung vieler solcher Mobilfunkdaten umzusetzen, bittet das eben gestartete Projekt Crowdflow um Spenden solcher iPhone-Datensätze, um ein “geo-soziales Netzwerkexperiment” umzusetzen.

Manche sind sich sicher, dass solch persönliche Datensätze Goldminen sind, die nur darauf warten, ausgebeutet zu werden. In dem lesenswerten Beitrag “The Really Smart Phone” im Wall Street Journal gibt Robert Lee Hotz einen Überblick darüber, was Forscher mit solchen Datensätzen anstellen: So wagen sie Voraussagen darüber, ob Personen gerade über Politik am Telefon debattieren, ohne den Inhalt des Gesprächs zu kennen. Oder sie prognostizieren, ob der Telefoninhaber Symptome einer Grippe zeigt.

Weiter…

Die Freude an Statistik

Von 7. Januar 2011 um 09:09 Uhr

Dem ein oder anderen mag die Freude an Statistik an der Uni oder schon in der Schule ausgetrieben worden sein. Glücklicherweise gibt es Hans Rosling. Er bricht eine Lanze für “faktenbasierte Betrachtung statt Vorurteilen” Der schwedische Arzt und Gesundheitsforscher ist für seinen Enthusiasmus und seine originellen Präsentationen von Statistiken bekannt.

Die BBC räumte ihm kürzlich in einer einstündigen Sendung Platz ein, die “Joy of Stats” zu verkünden. Die Sendung kann komplett bei der britischen Open University angeschaut werden. In ihr geht Rosling auf die Kartierung von Kriminalität ein. Auch würdigt er die Bedeutung der Arbeiten von Florance Nightingale für die Visualisierung von Statistik. Weitere Themen sind u.a. die Rolle statistischer Zusammenhänge bei automatisierter Übersetzung und in der Astronomie.

Weiter…

Lesestoff zu OpenData

Von 15. Dezember 2010 um 11:31 Uhr

Icon Open government dataBislang ist die Literaturlandschaft zu OpenData recht übersichtlich – vor allem in deutscher Sprache. Um so besser, dass vor kurzem ein 30-seitiges Gutachten zu  Open Government Data – frei verfügbaren Daten des öffentlichen Sektors erschienen ist (pdf ).

Der Autor, Jörn von Lucke, forscht an der Zeppelin Universität in Friedrichshafen (Bodensee). In besagter Arbeit fasst er verständlich den Stand der Dinge zusammen, führt kurz in Teilaspekte ein und bietet so einen Einstieg für jeden, der Interesse an offenen Daten hat. So widmet er sich der Frage, welche Datensätze von Bund, Ländern, Kommunen und Städten überhaupt von Interesse sind. Auch geht es um den Kulturwandel in den Verwaltungen, der mit einer Öffnung einhergehen muss.

Thema sind neben dem Gewinn durch Open Government Data auch Risiken und Schwächen – die sogenannte SWOT-Analyse: Strength, Weaknesses, Opportunities, Threats. Die ein oder andere Redundanz der Schrift mag dem Umstand geschuldet sein, dass es sich um ein Gutachten handelt, das Impulse für das Verwaltunghandeln einer Stadt geben will.

Weiter…

Europaweite OpenData Umfrage

Von 13. Dezember 2010 um 17:12 Uhr
Linked Data Map

Ausschnitt aus dem Netz von Linked Data

Noch bis Ende dieser Woche läuft eine europaweite Umfrage zur Nutzung von OpenData. Die englischsprachige Online-Erhebung nimmt etwa 15 Minuten Zeit in Anspruch. Sie ist sowohl für unmittelbare Anwender von OpenData – etwa Programmierer gedacht -, aber auch den reinen Nutzer. Die Umfrage startete vor gut einem Monat . Der 17. Dezember ist der letzte Tag für eine Teilnahme.

Koordiniert wird die Erhebung vom “Linked Open Data” Konsortium LOD2. Dieser Zusammenschluß von 10 Universitäten, Firmen und NGO wird seit Sommer diesen Jahres mit 6,5 Millionen Euro von der EU für vier Jahre gefördert (pdf).

Ziel ist es, die verschiedenen gesellschaftlichen und wirtschaftlichen Aspekte zu erforschen, die miteinander verbundene Datensätze hervorbringen können. “Linked data” will intelligente Verknüpfung verschiedener maschinenlesbarer Datenbanken ermöglichen, um automatisiert Zusammenhänge herstellen zu können. Ein Versuch in die Richtung stellt die Suchmaschine Wolfram Alpha dar.

Bildquelle: Das Bild oben ist ein Ausschnitt aus dem “Linking Open Data Cloud Diagramm” von Richard Cyganiaki und Anja Jentzsch (CC by:sa).

Kategorien: Datenforschung