Civey & Co: Warum Online-Umfragen in der Regel wertlos sind
Online-Umfragen sind beliebt. Vergleichsweise kostengünstig oder kostenlos bieten verschiedene Anbieter entsprechende Baukästen für die Fragebogengestaltung. Viele Abschlussarbeiten in den Gesellschaftswissenschaften greifen hierauf zurück, um Personen im eigenen Freundes- und Bekanntenkreis zu einem Thema zu befragen. Auch Nachrichtenportale schalten Umfragen häufig am Ende eines Artikels, um an ein Meinungsbild der Öffentlichkeit zu gelangen. In diesem Artikel möchte ich verdeutlichen, dass genau das auf dem alleinigen Online-Weg kaum möglich ist.
Befragungsformen und Auswahlrahmen
Bei Befragungen unterscheidet man grob verschiedene Medien oder „Modi“, über die man interviewt: Bei vielen Studien dominant sind dabei telefonische (Computer Assisted Telephone Interview) oder persönliche (Computer Assisted Personal Interviewing) Interviewmodi. Bevor man Personen befragt, erfolgt die Festlegung auf einen Auswahlrahmen zur Ziehung einer Stichprobe. Dieser Auswahlrahmen sollte möglichst umfassend alle Personen enthalten, über die mit der Studie eine Aussage getroffen werden soll. In vielen Fällen definieren die Institute diese sogenannte „Grundgesamtheit“ zum Beispiel durch die deutschsprachige Bevölkerung ab 18 Jahren mit Wohnsitz in Deutschland.
Der Auswahlrahmen kann aus den Einwohnermeldedaten der Bevölkerung oder einem Telefonverzeichnis bestehen. Aus dieser Masse muss für ein repräsentatives Bild möglichst jede Person mit der gleichen Wahrscheinlichkeit zum Teil der tatsächlich befragten Stichprobe werden können. An dieser Stelle wird bereits ein fundamentales Problem mit Online-Umfragen deutlich: Es wird meist gar keine Stichprobe gezogen. Die Antworten, die man hier erhält, stammen meist von Personen, die sich entlang bestimmter Merkmale deutlich vom Rest (oder sogar vom Großteil) der Bevölkerung unterscheiden. Es handelt sich um eine Gelegenheitsstichprobe, die im Grunde einer Straßenumfrage oder der Abstimmung auf Social-Media-Portalen ähnelt.
Civey & Co.: Repräsentativität durch Gewichtung
Nehmen wir beispielsweise das Online-Angebot des Spiegel. Das Erhebungsinstitut Civey fordert hier regelmäßig zur Teilnahme an Online-Umfragen auf, um die Ergebnisse im Anschluss prominent auf dem Portal zu platzieren. Gemäß Statistiken des IVW e. V. besuchen täglich etwa drei Millionen Menschen das Angebot des Spiegel. Einer aktuellen Online-Umfrage des Portals ist zu entnehmen, dass etwa 12 Mio. Personen abgestimmt haben. Damit hat die Stichprobe einen deutlich größeren Umfang als die meisten klassisch durchgeführten Umfragen (meist 1.000 bis 2.000 Personen) und suggeriert auf diese Weise verlässliche Ergebnisse.

Aus mehrerlei Hinsicht ist das jedoch nicht immer der Fall: Die Umfrage konnte schließlich keine Personen erreichen, die Spiegel.de nicht lesen oder gar so selten das Internet nutzen, dass sie kaum auf die Umfrage stoßen werden. Laut ARD haben im Jahr 2018 „nur“ 62,3% der 60 bis 69-Jährigen und 39,9% der über 69-Jährigen das Internet täglich genutzt. Gleichzeitig stellen diese Menschen zum selben Zeitpunkt 29% der deutschen Gesellschaft dar. Repräsentative Aussagen sind also nicht möglich, wenn diese Personen so gut wie nicht in der Stichprobe vertreten sind.
Grenzen der Gewichtung
Die Erhebungsinstitute, darunter auch Civey, behandeln dieses Problem, indem sie Abstimmungsergebnisse gewichten (vgl. Screenshot): Es werden Angaben der Personen höher gewichtet, die in der Stichprobe unterrepräsentiert sind. Fiktives Beispiel: Entspricht der Anteil von älteren Personen in der Bevölkerung 50%, so werden die Angaben der älteren Personen in der Auswertung auf 50% gewichtet, obwohl diese Menschen in der befragten Stichprobe nur einem Anteil von 10% entsprechen. Die Angaben jüngerer Personen werden dann entsprechend geringer gewichtet. Dieses Verfahren ist auch bei wissenschaftlichen Befragungen gängig. Es kann allerdings nur dann funktionieren, wenn sich die Angaben der älteren in der Stichprobe nicht systematisch von denen unterscheiden, die nicht teilgenommen haben (Ausfallmechanismen).
Überspitzt formuliert: Eine Umfrage soll Schlüsse auf die Bevölkerung zulassen, enthält aber bei einer Stichprobe von insgesamt 100 Personen nur 20 befragte Frauen. Sind alle Damen, sagen wir, Anhängerinnen der Punk-Szene, vermittelt die gewichtete Stichprobe anhand ihrer Kennzahlen ein ausgewogenes Bild (50% weiblich, 50% männlich) – die Angaben der weiblichen Hälfte der Befragten stammen allerdings weiterhin von 20 Punk-Anhängerinnen, die auf 50 hochgewichtet wurden. Diese unterscheiden sich gegebenenfalls deutlich vom Rest der Bevölkerung. Nur auf den ersten Blick kann jemand eine solche Stichprobe also als repräsentativ verkaufen.
Der Civey-Methodik ist jedoch anzurechnen, dass Gewichtung immerhin eine Rolle spielt und das Unternehmen mit seinen Online-Umfragen eine Antwort auf ein drängendes Problem der Erhebungsinstitute bietet. Auch traditionelle Erhebungsformen wie telefonische Umfragen kämpfen mit dem Problem, das ein zunehmender Anteil von Personen telefonisch über das Festnetz nicht mehr erreichbar ist – hier sind vor allem die Jüngeren unterrepräsentiert (Mobile-only-Haushalte).

Nicht mehr als ein Stimmungsbild
Als substanziell besonders wertlos kann man Online-Umfragen wie im obigen Screenshot bezeichnen. Seine Meinung soll man hier auf einer „stufenlosen“ Skala zwischen zwei extremen Polen einordnen. Nach dem Absenden erfolgt die Darstellung des Umfrageergebnisses. Eine Erfassung demografischer Daten über den Befragten erfolgt überhaupt nicht. Man erhält im Ergebnis also lediglich die Rohangaben einiger Portal-Leser, die im Grunde nicht weiter verwertbar sind. Inhaltlich sind sie ähnlich substanziell wie ein Televoting oder eine Twitter-Umfrage. Was nützt schließlich ein Meinungsbild von 27.000 Personen, von denen ich auf keine weiteren Personen schließen kann? Hierbei ist noch außer Acht gelassen, dass man auch an die Fragenformulierung und Antwortvorgaben methodische Ansprüche stellen sollte.
Nicht für alle Studien sind Zufallsstichproben notwendig. Auch könnte das Ziel einer Befragung darin liegen, ausschließlich ein Meinungsbild bestimmter Altersgruppen oder ein Stimmungsbild der Leserschaft zu erhalten. Für verlässliche Ergebnisse ist auch eine Kombination verschiedener Befragungsformen möglich. Schlagzeilentaugliche Meinungsbilder lassen sich jedoch nur bedingt über eine reine Online-Umfrage generieren. Die Resultate vermitteln daher höchstens die Meinung jener Personen, die zur Leserschaft des jeweiligen Mediums gehören.
Wenn dir der Artikel gefallen hat, freuen wir uns über eine Tasse Kaffee!