Twitterprognosen, oder: Warum die Piratenpartei beinahe die Wahl 2009 gewonnen hätte

von Andreas Jungherr, Pascal Jürgens und Harald Schoen

Die zunehmende Nutzung internetgestützter Dienste wie zum Beispiel Google, Facebook oder Twitter hat für Sozialwissenschaftler den erfreulichen Nebeneffekt, dass sie auf immer größer werdende Datensätze zugreifen können, die menschliches Verhalten dokumentieren. So wurde zum Beispiel erfolgreich gezeigt, dass die Häufigkeit von Google-Suchanfragen Rückschlüsse auf die Entwicklung von Verbraucherzahlen oder Grippeepidemien zulässt. Mit Hilfe von Daten des Microblogging-Dienstes Twitter wurde versucht, den Kassenerfolg von Kinofilmen vorherzusagen oder die Struktur von Fernsehereignissen aufzuzeigen. Verschiedene Studien zeigen das Potential dieser neuen, durch Internetnutzung entstandenen Datensätze. Die Art und Größe dieser Datensätze birgt neben der Chance eines tatsächlichen Erkenntnisgewinns über gesellschaftliche Entwicklungen außerhalb des Internets für Forscher jedoch auch die Gefahr, zufällige Muster in den Daten als bedeutungsvolle Ergebnisse zu interpretieren.

Wie schnell man solchen Fehlschlüssen aufsitzen kann, zeigt der Aufsatz „Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment“ von Andranik Tumasjan, Timm O. Sprenger, Philipp G. Sandner und Isabell M. Welpe. In ihrem Text versuchen die Autoren, das Ergebnis der Bundestagswahl 2009 mit Hilfe von Twitter-Nachrichten zu prognostizieren, die vor der Wahl gesendet wurden. Für die sechs im Bundestag vertretenen Parteien gelingt das so gut, dass die Autoren folgern, “the mere number of tweets mentioning a political party can be considered a plausible reflection of the vote share and its predictive power even comes close to traditional election polls”. Ein faszinierendes Ergebnis: Das einfache Zählen von Twitternachrichten führt zu sehr ähnlichen Resultaten wie kostspielige Erhebungen von Meinungsforschungsinstituten, die so gerne als Prognosen gelesen werden.

Die anfängliche Freude über dieses Ergebnis verfliegt allerdings schnell, betrachtet man sich die Analyse genauer. Eine einfache Replikation der Studie von Tumasjan und Kollegen ergibt Ergebnisse, die der Originalstudie sehr ähneln (Tabelle 1). In der Replikation der Studie stellten wir fest, dass für die Bundestagsparteien der mit Hilfe von Twitternennungen prognostizierte Stimmenanteil im Durchschnitt nur um 1,51 Punkte vom tatsächlichen Stimmenanteil ab. So weit, so gut.

Tabelle 1: Anteile der Bundestagsparteien an den Stimmen und Twitternennungen

a In Anlehnung an Tumasjan et al. wurden nur die auf die betrachteten Parteien entfallenen Stimmen berücksichtigt.

In ihrer Untersuchung entschieden sich Tumasjan und Kollegen dafür, nur die Nennungen von Parteien zu zählen, die auch tatsächlich im Bundestag vertreten waren. Diese Entscheidung ist etwas überraschend, da die Autoren so eine politische Prognose auf der Basis von Onlinekommunikation erstellen, aber diejenige Partei nicht berücksichtigen, die von allen Parteien die meisten Unterstützer im Internet sammeln konnte. Um zu überprüfen, wie robust die Ergebnisse von Tumasjan und Kollegen tatsächlich sind, beschlossen wir, die Piratenpartei in unsere Replikation der Originalstudie einzubeziehen. Abbildung 1 zeigt das Ergebnis.

Abbildung 1: Anteile der Bundestagsparteien und der Piratenpartei an den Stimmen und Twitternennungen

*In Anlehnung an Tumasjan et al. wurden nur die auf die betrachteten Parteien entfallenen Stimmen berücksichtigt.

Die Twitterprognose identifiziert hier eindeutig die Piratenpartei als stärkste Kraft. Wäre diese Prognose korrekt, so hätte die Piratenpartei am Wahltag 35 Prozent der abgegebenen Stimmen erhalten und damit mit hoher Wahrscheinlichkeit den Kanzler gestellt. Dieses Szenario hat offensichtlich wenig mit den tatsächlichen Wahlergebnissen zu tun, da die Piratenpartei am Wahltag etwa 2 Prozent der abgegeben Stimmen erzielen konnte und damit nicht in den Bundestag einziehen konnte. Es scheint, als würde zumindest dieses Instrument versagen, sobald man internetgestützte politische Bewegungen in die Analyse einbezieht.

Nun könnte man die Twitterprognose mit dem Argument zu retten versuchen, es sei zu ambitioniert, ausgerechnet die Piratenpartei in die Analyse einzubeziehen, von der ja vor der Wahl 2009 jeder gewusst habe, dass sie nicht in den Bundestag einziehen würde. Auf den ersten Blick erscheint dieser Einwand überzeugend, nicht jedoch auf den zweiten. Denn eine Methode, die Informationen darüber voraussetzt, welche Parteien in den Bundestag einziehen werden, dürfte schwerlich als eigenständiges Prognoseinstrument akzeptiert werden.

Dieses Beispiel zeigt, wie leicht es ist, sich von Mustern in Datenspuren menschlichen Online-Verhaltens irreführen zu lassen. Gerade die Reichhaltigkeit dieser Daten und ihre komplexen Zusammenhänge legen es nahe, Muster zu erkennen. Schwierig wird es allerdings, wenn diese Muster auf ihren Realitätsbezug überprüft werden sollen. Gerade hier entscheidet sich jedoch, ob die Ergebnisse einer solchen Untersuchung tatsächlich gesellschaftliche Entwicklungen außerhalb des Internets abbilden oder nur statistische Artefakte sind.

Literatur:

Tumasjan, Andranik, Timm O. Sprenger, Philipp G. Sander and Isabell M. Welpe. (2010). “Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment,” Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Menlo Park, California: The AAAI Press. 178-185.

Die Autoren:

Andreas Jungherr arbeitet als wissenschaftlicher Mitarbeiter am Lehrstuhl für Politische Soziologie an der Universität Bamberg. Dort promoviert er zur Dynamik politischer Twitternutzung. Er twittert unter dem Namen @ajungherr.

Pascal Jürgens ist Kommunikationswissenschaftler und promoviert demnächst im Bereich der Online-Kommunikation. Seine Forschungsschwerpunkte liegen in empirischen Methoden, insbesondere bei Sozialen Netzwerken und Modellierung.

Harald Schoen ist Politikwissenschaftler und Professor für Politische Soziologie an der Otto-Friedrich-Universität Bamberg. Zu seinen Forschungsgebieten gehören Wahlverhalten, Wahlkämpfe und ihre Wirkungen, Einstellungen zu außen- und sicherheitspolitischen Themen sowie Fragen der politischen Psychologie.