Lesezeichen
 

Warum ist der Ausgang von Wahlen trotz schwankender Umfrageergebnisse vorhersagbar?

Umfragen vor oder zu Beginn eines Wahlkampfes sind notorisch ungenau und meist erst kurz vor dem Wahltag relativ aussagekräftig. Paradoxerweise ist der Ausgang einer Wahl bereits Wochen bzw. Monate vor dem Wahltag vorhersehbar, zumindest so genau, wie es Umfragen am Tag vor der Wahl ermitteln könnten. Warum fluktuieren Umfragewerte so stark, wenn Wahlen dann doch vorhergesagt werden können? Ist der Wahlkampf somit unnötig? Nein. In einem Bundestagswahlkampf wird normalerweise keines der jeweiligen Lager eindeutig vom Wahlkampf profitieren können, sofern nicht einer Seite das Geld ausgeht (bei weniger wichtigen Landtags- oder Kommunalwahlen ist das anders). Im Wahlkampf werden der Wählerschaft Informationen und Handreichungen gegeben, mit Hilfe derer sie ihre Wahlentscheidungen treffen können. Die „Überzeugungstäter“ müssen motiviert werden zur Wahl zu gehen, die „Unparteiischen“ mit politischen Angeboten überzeugt und die „Apathischen“ auch mit unpolitischen Image-Kampagnen politisch „verführt“ werden. Aus der akademischen Wahlforschung wissen wir, dass Wahlentscheidungen nicht beliebig fabriziert werden können wie der Absatz von Zahnpasta, sondern sich aus fundamentalen Bestimmungsfaktoren zusammensetzen, wie z. B. der Bewertung von politischen Parteien, Kandidaten sowie politischen Themen.

Die Handreichungen im Wahlkampf helfen den Wählerinnen und Wählern, sich wieder politisch ins Tagesgeschäft einzuschalten und sich zu orientieren. Dabei lernen sie den Wert dieser fundamentalen Bestimmungsfaktoren erneut kennen, falls sie es in der wahlkampfarmen Zeit vergessen haben sollten. Neben dieser Erinnerungsfunktion, die der Wahlkampf für die „Überzeugungstäter“ bietet, biete sich hier eine weitere Möglichkeit, durch die Ausgestaltung der Kampagne bei den „Unparteiischen“ eine Gewichtsverschiebung dieser fundamentalen Bestimmungsfaktoren zu erreichen. Für den einen kann ein politisches Thema vorrangig sein, für andere kann die Bewertung eines Kandidaten wichtiger sein als die der zugehörigen Partei. Erst wenn politische Kampagnen bestimmte, einfach verfügbare Bewertungskriterien liefern, die bei den noch unentschiedenen unparteiischen Wählern zu einer anderen Gewichtung der fundamentalen Bestimmungsfaktoren oder ihrer Erwartung über den Wahlausgang führt, kann sich die Wahlentscheidung dieser Wähler bis zum Wahltag noch ändern.

Die akademische Wahlforschung kann Angebote machen, wie ihre Expertise hinsichtlich der Erklärung individueller Entscheidungsprozesse sowie der Entwicklung von Vorhersagemodellen genutzt werden kann, um die Schwächen von Umfragen als Mittel zur Beurteilung politischer Kampagnen auszugleichen. Beispielsweise haben schon vor einem halben Jahrhundert die Autoren der „Bibel“ der Wahlforschung The American Voter mit ihren Modellen die tatsächliche Wahlentscheidung von Befragten vor einer Wahl genauer vorhersagen können, als es die Befragten selbst zu diesem Zeitpunkt konnten. Die Umfragen vor der Wahl lieferten also damals schon ein verschwommeneres Bild als die statistischen Modelle der Godfathers der Wahlforschung. Warum ist das so? Politikwissenschaftliche Modelle des Wahlverhaltens messen die fundamentalen Bestimmungsfaktoren und können daher prinzipiell Vorhersagen über das Wahlverhalten treffen. Der einzelne Befragte hingegen muss sich die Antwort auf die Wahlabsichtsfrage in der Interviewsituation immer wieder selbst zusammenreimen. Erfahrungsgemäß werden lange vor einer Wahl nicht unbedingt diese fundamentalen Bestimmungsfaktoren dafür verwendet. Der einzelne lernt gewissermaßen diese Faktoren im Laufe des Wahlkampfes erst wieder kennen und wird sie dann für seine Wahlentscheidung heranziehen.

Im Hinblick auf die Prognose von Wahlen gibt es mittlerweile auch eine Reihe vielversprechender Ansätze, die nicht nur auf Interpretationen des Antwortverhaltens von Befragten auf die hypothetische „Sonntagsfrage“ beruhen. Auf der Basis von nur drei Faktoren – Kanzler(innen)popularität, Wählerrückhalt der Regierungsparteien und Abnutzung einer jeweiligen Regierung im Amt — konnte ein von Helmut Norpoth und mir entwickeltes Modell den Stimmenanteil der amtierenden Regierungskoalition bei den letzten beiden Bundestagswahlen 2002 und 2005 (in diesen Fällen also SPD/Grüne) einen Monat vor dem jeweiligen Wahltag genauer vorhersagen als es die Umfragen zum Teil noch mit ihren 18-Uhr-Prognosen am Wahlabend vermochten. Auch für diesen Herbst werden wir eine Prognose erstellen. Mehr dazu am kommenden Sonntag.

 

Sind Umfragen das Allheilmittel zur Begleitung politischer Kampagnen?

Wir können uns glücklich schätzen, dass uns für die professionelle Begleitung politischer Kampagnen in der Bundesrepublik mehrere sehr gute Meinungsforschungsinstitute zur Verfügung stehen. Viele Institute externalisieren auch in einem gewissen Maß die Qualitätskontrolle ihrer Datenerhebung, weil sie sogar nach einiger Zeit ihre Rohdaten der interessierten wissenschaftlichen Öffentlichkeit zur Verfügung stellen. Diese potentielle Möglichkeit einer Kontrolle – auch wenn sie erst im Nachhinein geschehen kann – ist ein großer Fortschritt, der uneingeschränkt zu begrüßen ist. Die Institute sehen sich bei der Durchführung von Umfragen vielen praktischen Herausforderungen gegenüber (einzelne wurden exemplarisch von Andreas Wüst und anderen in diesem Blog bereits thematisiert), die üblicherweise nicht in akademischen Lehrbüchern zu finden sind und die sie trotz widriger Randbedingungen erfolgreich meistern.
Jedoch selbst in einer perfekten Umfrageforschungswelt mit einer wirklich zufällig realisierten Stichprobe, guten Frageinstrumenten sowie erreichbaren und auskunftswilligen Befragten sind Schlussfolgerungen, die auf Umfragedaten basieren, mit Vorsicht zu genießen. Eigentlich benötigen sie einen Beipackzettel (siehe dazu auch meinen letzten Blog-Beitrag). Das gilt insbesondere dann, wenn für ein bestimmtes Merkmal (etwa die beabsichtigte Wahl einer Partei) Veränderungen über die Zeit hinweg interpretiert werden sollen: „Steht die SPD besser da als vor zwei Wochen? Hat die FDP doch keinen Nutzen aus XY ziehen können?“
Ein großer Teil der beobachteten Veränderungen im Zeitverlauf ist nicht real, sondern rein zufällig und statistisch bedingt, weil eben nicht alle Wahlberechtigten befragt werden (können), sondern bestenfalls nur ein zufälliger Teil. Aus der Wahrscheinlichkeitstheorie wissen wir, dass wir, um eine Veränderung von einem (bzw. zwei) Prozentpunkt(en) mit 99 %-iger Sicherheit feststellen zu können, etwa einen Stichprobenumfang von 100.000 (bzw. 25.000) Befragten benötigen. Umfragedaten für solche präzisen Angaben kann und will natürlich niemand bezahlen. Typische Umfragen werden bei 1.000 bis 2.000 Befragten erhoben. Begnügt man sich mit einer Sicherheit von 90 %, dann genügen 2.000 Befragte einer perfekt realisierten Zufallsstichprobe bestenfalls, um eine Veränderung von 5 Prozentpunkten festzustellen.
Als Fazit bleibt daher festzuhalten: Die Anzahl der Befragten ist zu klein, um reale Veränderungen der aktuellen Stimmungslage in typischen Umfragen, wie sie vor der Bundestagswahl gemacht werden, zu entdecken. Trotzdem werden in den Medien vermeintliche Trends aufgezeigt und oft ad hoc interpretiert, als seien sie real. Mit der Berichterstattung über Umfragen wird so aufgrund bestimmter Anreizstrukturen der Medienlandschaft (Change ist sexy – wenn nichts passiert, kann man auch nichts berichten) ein künstlicher Hype produziert, den die Politik auch für sich instrumentalisieren kann. Man muss sich aber darüber im Klaren sein, dass dies mit einer Beschreibung und Interpretation der aktuellen Stimmungslage dann nichts mehr zu tun hat.

 

Stimmung und Stimmen sind zwei paar Stiefel: Das Elend mit der sogennanten „Sonntagsfrage“

Jetzt kommt sie wieder, die Zeit der Balken- und Kuchendiagramme. Die Berichterstattung zu Umfragen wird sich in den kommenden Wochen drastisch erhöhen. Man wird darüber lesen dürfen, wie viele Prozentpunkte eine Partei in den Umfragen zulegen konnte und wie viel eine anderen Partei dafür gesunken ist (siehe auch den Beitrag von Thorsten Faas). Grundlage dieser Berichterstattung bildet die sogennante „Sonntagsfrage“, die in repräsentativen Bevölkerungsumfragen den entsprechenden Zielpersonen regelmäßig gestellt wird. Der Fragetext ist der folgende: „Welche Partei würden Sie wählen, wenn am kommenden Sonntag Bundestagswahl wäre?“ Der alte Sponti-Spruch als Antwort auf diese Frage „Woher soll ich das wissen? Heute ist erst Montag!“, hat durchaus auch einen ernsten Hintergrund. (Wir haben in diesem Blog schon einiges über die zunehmend spätere Wahlentscheidung der Wählerinnen und Wähler lesen können.) Eigentlich soll mit dieser Frage die Wahlabsicht der Befragten bei der nächsten Bundestagswahl gemessen werden. Allerdings kann aus der jetzigen Absicht die eine oder die andere Partei im September zu wählen noch nicht unmittelbar auf das tatsächliche Verhalten der Wähler geschlossen werden. Das wäre dann doch zu einfach.

Das Hauptproblem damit: Kommenden Sonntag ist gar keine Bundestagswahl! Wie sollen Befragte, die womöglich eher an den nächsten Urlaub als an die kommende Bundestagswahl denken, auf so eine Frage antworten? Selbst wenn sie sich für Politik interessieren und den Wahlkampf intensiv verfolgen, so geht es doch in dieser Frage um kein reales Verhalten, sondern um eine Absicht zu einem rein hypothetischen „Was wäre, wenn…“. Solche Fragen sind immer schwierig zu beantworten.

Und man stelle sich bitte auch immer die Interviewsituation vor. Mich selbst hat es schon bei der Essenszubereitung erwischt. „Guten Abend, haben Sie einen Moment Zeit für ein paar Fragen?“ Kurze Überlegung, während Kind 1 im Kinderstuhl sitzt und lauthals schreit, Kind 2 auf dem linken Arm zappelt und ich mit der rechten Hand die Tomatensoße umrühre, den Telefonhörer zwischen Ohr und Hals eingeklemmt. Aber als Umfragen-Junkie kenn ich keine Gnade und habe natürlich eingewilligt.

Viele Befragte bemühen sich genau wie ich damals, trotzdem eine Antwort auf jede noch so schwierige Frage zu geben. Dabei kann es durchaus vorkommen, dass dieselbe Frage von ein und demselben Befragten zu einem späteren Zeitpunkt durchaus anders beantwortet würde. Es ist daher kein Wunder, dass die Antworten auf solche Fragen von einem Zeitpunkt zum nächsten variieren ohne sich dabei wirklich geändert zu haben.

Die sogenannte „Sonntagsfrage“ – obwohl sie eigentlich treffender als „Wahlabsichtsfrage“ bezeichnet werden sollte – kann aber zumindest die aktuelle Stimmungslage der Menschen wiedergeben. Allerdings sollte auf jeden Fall auf den Beipackzettel zu Nebenwirkungen im Umgang mit Umfragen geschrieben stehen, dass auf Basis der Wahlabsichtsfrage alleine noch keine Vorhersage darüber gemacht werden kann, wie viele Stimmen eine Partei am Wahltag tatsächlich am Wahltag erzielen kann. Stimmungen sind eben noch keine Stimmen am Wahltag. Wahlprognosen können anders gemacht werden. Mehr dazu später.

 

Nur eine Petitesse des Wahlrechts? Überhangmandate bei der nächsten Bundestagswahl

Überhangmandate entstehen immer dann, wenn eine Partei in einem Bundesland mehr Direktmandate erhält, als ihr nach dem bundesweiten Verhältnis der Zweitstimmen eigentlich zustünden. Solche Überhangmandate sind zwar, um es lax auszudrücken, unschön, stören aber nicht weiter, solange sich damit keine anderen Mehrheitsverhältnisse im Bundestag ergeben. Wenn aber CDU, CSU und SPD, die ja im Wesentlichen die Direktmandate gewinnen, eigentlich viel weniger Sitze zustehen, als sie schon mit Direktmandaten gewinnen, kann es zu deutlichen Verzerrungen kommen.

Mein Kollege Joachim Behnke von der Zeppelin University in Friedrichshafen hat nun eine überzeugende Simulationsstudie vorgelegt, die zu alarmierenden Ergebnissen kommt, wie er gestern in Spiegel Online berichtet. In einer Simulationsstudie wie dieser werden systematisch bestimmte Szenarien eines möglichen Wahlausgangs durchgespielt. Dazu müssen immer Annahmen gemacht werden, die angreifbar sind, worauf Joachim Behnke selbst immer wieder hinweist.

In seiner Studie wird von den 299 Wahlkreisergebnissen der letzten Bundestagswahl 2005 ausgegangen und angenommen, dass sich die Erststimmen der Parteien in jedem Wahlkreis gleichmäßig verbessern bzw. verschlechtern, wie es die derzeitigen Umfragewerte der Zweitstimmen widerspiegeln. Zu diesen Werten werden noch die zu erwartenden Stimmensplitter (in der Größenordnung der letzten Bundestagswahl) der Wunschkoalitionspartner FDP und der Grünen für die WahlkreiskandidatInnen der CDU, CSU und SPD pro Wahlkreis hinzugezählt. Somit können die Gewinner der Direktmandate mit dem jeweiligen Zweitstimmenergebnis (sofern die jetzigen Umfragen stimmen) der Parteien verglichen und die Anzahl der Überhangmandate berechnet werden. Da die Umfragen zu diesem Zeitpunkt bestenfalls ungefähr das Endergebnis widerspiegeln, werden mehrere leicht schwankende Zweitstimmenergebnisse der Parteien als Berechnungsgrundlage herangezogen. Daher bekommt man nicht eine bestimmte prognostizierte Anzahl der Überhangmandate für CDU, CSU bzw. SPD, sondern eine ganze Verteilung solcher Werte.

Behnkes Ergebnisse verdeutlichen die Größe des zu erwartenden Vorsprungs der CDU/CSU gegenüber der SPD. Der Sitzvorsprung der CDU/CSU vor der SPD, nur basierend auf Überhangmandaten, beträgt im Mittel mehr als 21 Sitze. In praktisch allen Simulationen hat die CDU/CSU einen deutlichen Vorsprung an Überhangmandaten, oft sogar einen rekordverdächtigen. Eine auf diese Weise künstlich vergrößerte CDU/CSU Fraktion im Bundestag hätte auch erheblich mehr strategisches Machtpotential in Koalitionsverhandlungen mit der FDP (oder natürlich auch den Grünen bzw. der SPD) nach der Bundestagswahl.

So dramatisch wird es vermutlich aber nicht kommen. Ich nehme nicht an, dass die jetzigen Umfragen wirklich gut das Stimmungsbild am Wahlabend wiedergeben. Der Abstand zwischen CDU/CSU und SPD wird sich noch verkleinern. Potentielle Wahlkreissieger der CDU/CSU gemäß Behnkes Simulationsstudie werden dann doch nicht das Direktmandat gewinnen, sondern es an die SPD-KandidatIn verlieren, was sofort zu einer Verringerung von Überhangmandaten führen würde. Außerdem wären die Wahlkampfstrategen der Parteien töricht, wenn sie ihre Direktmandatsstrategien nicht entsprechend auf diese Umstände anpassten (siehe hierzu auch den Beitrag von Thorsten Faas).

 

Wahl-Forensik im Iran

Um es gleich vorwegzunehmen: Ich bin ein Fan des iranischen Kino. Der Gegensatz von Moderne und Tradition, der oft neben beeindrucken Bildern das inhaltliche Leitthema bildet, fasziniert mich seit einiger Zeit. Ich spreche aber weder die Sprache, noch kann ich die Schrift entziffern. Ehrlich gesagt habe ich echte Mühe, mehr als fünf iranische Städte beim Namen zu nennen. Ich bin also genauso auf die übliche Berichterstattung angewiesen.

Das böse Wort „Wahlfälschung“ macht die Runde, wenn von den Präsidentschaftswahlen im Iran vom 12. Juni die Rede ist. Leider scheinen unsere Nachrichten lieber an irgendwelche selbst gedrehten Amateurvideos von Protesten interessiert zu sein und den ewigen Bildern vom Teheraner Nachthimmel, als einmal den Versuch zu unternehmen herauszufinden, was an den Wahlbetrugsvorwürfen den nun wirklich dran ist. Für viele westliche Beobachter der Iranischen Politik scheint dieser Vorwurf bereits zu einer selbsterfüllenden Prophezeiung zu werden, der man nicht weiter nachgehen muss. Gerne werden Geschichten zitiert, die zur eigenen Überzeugung passen, während andere übergangen werden.

Wie lassen sich aber Wahlbetrugsvorwürfe von Außen überprüfen? Mittlerweile kursieren im Internet Hinweise auf Links zum Iranischen Innenministerium, von denen man (ich nehme an „vorläufige“) Wahlergebnisse der Provinzen und Wahlkreisen herunterladen kann. Fördern diese Zahlen den Glauben oder eher die Skepsis an den Vorwürfen? Für Interessierte und Wahl-Forensiken ohne besondere Kenntnisse der Iranischen Politik bleiben im Wesentlichen zwei mögliche Herangehensweisen.

Zum einen lassen sich die absoluten Stimmergebnisse dahingehend analysieren, ob sie bestimmte zu erwartende Gesetzmäßigkeiten (das sogenannte „Newcomb-Benford-Gesetz“) in den Ziffernstrukturen der publizierten Wahlergebnisse aufweisen. So weiß man, dass Ziffern innerhalb solcher Datensätze nicht gleich oft vorkommen (die grüne Linie in der unten stehenden Graphik), sondern bestimmten Regelmäßigkeiten (der roten Linie) folgen: Je niedriger der zahlenmäßige Wert einer Ziffer an einer bestimmten Stelle einer Zahl ist, umso häufiger tritt sie auf. So tritt beispielsweise die ‚1‘ als erste Ziffer viel häufiger als alle anderen Ziffern. Am seltensten sollte die ‚9‘ als erste Ziffer in Wahlergebnissen zu finden sein. Machen Sie doch einmal zum Spaß die Probe im Excel-Sheet zu den Einträgen Ihrer letzten Steuererklärung!

Das Newcomb-Benford-Gesetz

Quelle: Wikipedia

Statistiker und Informatiker haben diese Idee weiter vorangetrieben und Software zur automatischen Aufdeckung von Datenfälschung entwickelt. Als besonders aufschlussreich erweisen sich im Zusammenhang mit Wahlergebnissen die Vergleiche der Häufigkeiten der zweiten Ziffern in einzelnen veröffentlichten Wahlergebnissen mit der nach dem Newcomb-Benford-Gesetz erwartenden Häufigkeiten. Weichen diese (beobachtenden und erwarteten) Häufigkeiten systematisch voneinander ab, dann wird dies als ein starkes Indiz für aufgetretene Unregelmäßigkeiten in den veröffentlichten Wahlergebnissen gewertet.

Eine zweite Methode um möglichen Wahlfälschungen auf die Spur zu kommen sind statistische Verfahren, die versuchen die beobachteten Wahlergebnisse durch frühere Wahlergebnisse und andere Informationen auf Wahlkreisebene systematisch vorherzusagen. Dabei kommt es zwangsläufig zu Prognosefehlern. Sind diese Fehler für viele Wahlkreise (a) sehr groß, d.h. lassen sich die Wahlergebnisse in diesen Wahlkreisen nur schlecht vorhersagen, und (b) werden die Stimmanteile für bestimmte Kandidaten oder Parteien systematisch unterschätzt (oder überschätzt), dann spricht das eher für eine Wahl mit Unregelmäßigkeiten als für eine faire Wahl.

Was genau bei den Iranischen Präsidentschaftswahlen passiert sein mag, kann natürlich keine dieser Methoden abschließend erklären. Die korrekte Anwendung dieser beiden Methoden kann aber wenigstens Anhaltspunkte für Wahlprüfungsexperten liefern, um mit der Überprüfung zu beginnen.

Der führende Experte auf dem Gebiet der Wahl-Forensik ist Walter Mebane. Der Professor für Politikwissenschaft an der University of Michigan hat schon einige Untersuchungen zu Wahlunregelmäßigkeiten in den USA, Mexico und Russland vorgelegt. Mebane wendet diese beiden Methoden auf die wenigen bisher zur Verfügung stehenden Daten zur jüngsten Präsidentschaftswahl im Iran an. Walter Mebane ist sicherlich kein Zeitgenosse, der vorschnelle statistische Analysen als Pseudo-Evidenz für oder gegen Wahlunregelmässigkeiten veröffentlicht. Im Gegenteil, Interessierte können seine Ergebnisse hier herunterladen. Zudem veröffentlicht er sogar Daten und Protokolle seiner statistischen Analysen, damit sie nachprüfbar bleiben und verbessert werden können. Seine bisherigen Analysen (Stand: 22. Juni 2009) lassen sich wie folgt kurz zusammenfassen:

Während Mebane nur zufällige Abweichungen der zweiten Ziffern in den ihm vorliegenden Wahlergebnissen für Mussawi von der zu erwartenden Verteilung der zweiten Ziffern findet, erhält er systematische Abweichungen von den erwarteten Häufigkeiten bei drei weiteren Kandidaten, darunter auch den Stimmenergebnissen von Amtsinhaber Ahmadinedschad. Zudem findet er eine große Anzahl von Wahlkreisen, in denen Ahmadinedschad systematisch besser abschneidet als durch weitere statistische Verfahren vorhergesagt werden kann. Das deutet zumindest auch auf die Möglichkeit von Unregelmäßigkeiten bei der jüngsten Präsidentschaftswahl hin. Natürlich könnte es theoretisch auch andere Gründe geben, mit denen man die Stimmergebnisse in allen Wahlkreisen sehr gut vorhersagen könnte. Mehr Informationen über das Wahlverhalten der Iraner sind dazu erforderlich. Allerdings deutet die hohe Anzahl dieser schlechten Vorhersagen in Kombination mit den systematischen Abweichungen der Verteilungen der zweiten Ziffern in den Wahlergebnissen mehreren Präsidentschaftskandidaten eher auf Unregelmäßigkeiten bei dieser Wahl hin.