tagesschau.de feiert Rekorde, die es (wahrscheinlich) nicht gibt

Und schon wieder werden Zahlen missbraucht, um neue Rekorde zu bejubeln. So macht es die Tagesschau, die über eine vom WDR bei Infratest Dimap in Auftrag gegebene Umfrage schreibt:

Beide Rekorde halten jedoch einer genaueren Prüfung nicht stand.

Umfrageergebnisse sind immer mit statistischen Unsicherheiten verbunden. Wenn in der Sonntagsfrage danach gefragt wird, welche Partei man wählen würde, wenn am nächsten Sonntag Bundestagswahlen wäre, befragt man nicht alle Wähler, sondern nur rund tausend (hier waren es 1.008) und rechnet das dann hoch. Weil eine solche Hochrechnung aber nicht eindeutig und zuverlässig funktioniert, bekommt man beim Endergebnis Unsicherheiten. Bei einem Wert von fünf Prozent für eine Partei beträgt die mögliche Abweichung 1,4 Prozentpunkte, bei einem Wet von 50 Prozent 3,1 Prozentpunkte.

Wenn also der Wert von CDU/CSU mit 29 Prozent angegeben wird, liegt er nur zufällig dort, viel wahrscheinlicher aber in einer Spannbreite von etwa 27 bis 31 Prozent. Bei der letzten Umfrage sah Infratest Dimap CDU/CSU noch bei 30 Prozent, was einer Spanne von etwa 28 bis 32 Prozent entspricht. Es ist also unseriös, von einer tatsächlichen Veränderung des CDU/CSU-Werts von 30 auf 29 und von einem neuen Rekordtief zu sprechen. Denn möglich wäre auch ein Plus: Wenn die Parteien bei der letzten Umfrage schon bei 28 Prozent lagen und jetzt auf 31 Prozent raufgegangen sind. Man kann es einfach nicht genau sagen.

Ähnlich verhält es sich mit dem Wert für die AfD. Statt 17 Prozent bewegt  er sich viel wahrscheinlicher in einem Bereich zwischen 15,5 und 18,5 Prozent. Auch hier ist statt einer Steigerung von 16 auf 17 Prozent vom letzten mal die umgekehrte Bewegung möglich: zum Beispiel von 18 auf 16 Prozent.

Ein Prozentpunkt Veränderung ist also statistisch überhaupt nicht relevant, bei höheren Werten sind es nicht mal drei Prozentpunkte. Eine größere Veränderung zwischen zwei Umfragen gibt es aber selten, so dass man von Umfrage zu Umfrage fast nie eine verlässliche Aussage treffen kann. Allenfalls über längere Zeiträume lassen sich Trends ausmachen. Aus denen lassen sich aber keine guten Schlagzeilen stricken, wie es jetzt tagesschau.de getan hat.

Und beim Kommentieren, wie es BR-Chefredakteur Christian Nitsche es getan hat, sollte man sich zurückhalten. Zwar nimmt er tatsächlich auch den längeren Trend in den Blick, hebt aber unnötigerweise auch die aktuellen Werte hervor:

Nach der Bundestagswahl sind diese Umfragewerte die bislang schallendste Ohrfeige für die Bundesregierung. Sie hat aktuell nicht einmal mehr die Hälfte der Bürger hinter sich. Die SPD hat mit weiter 18 Prozent den Volksparteistatus auf nicht absehbare Zeit eingebüßt. Die Union schrumpft unter die absolute Schmerzgrenze von 30 Prozent.

Übrigens: Dass die Werte nicht schwankungsfrei sind, schreibt tagesschau.de sogar selbst am Ende des Textes. Dort heißt es:

Die Ergebnisse sind auf ganze Prozentwerte gerundet, um falsche Erwartungen an die Präzision zu vermeiden. Denn für alle repräsentativen Befragungen müssen Schwankungsbreiten berücksichtigt werden. Diese betragen im Falle eine Erhebung mit 1000 Befragten bei großen Parteien rund drei Prozentpunkte, bei kleineren Parteien etwa einen Punkt. Hinzu kommt, dass der Rundungsfehler für kleine Parteien erheblich ist. Aus diesen Gründen wird deshalb keine Partei unter drei Prozent in der Sonntagsfrage ausgewiesen.

Aber vermutlich geht es den Journalisten wie vielen Lesern: Die kommentieren ja auch, bevor sie den ganzen Artikel gelesen haben.

Fahren Schwangere schlechter Auto? PR-Tricks mit Daten und Statistiken

Jede Woche werden Dutzende unsinnige Umfragen und sogenannte Studien veröffentlicht. Meistens von Interessenverbänden und Firmen, leider zu oft auch von Medien, die die Daten und oft auch den Spin übernehmen.

Leider stimmt vieles davon nicht. Weil die Umfragen so formuliert sind, dass ihre Ergebnisse nicht das aussagen, was in sie hineininterpretiert wird zum Beispiel. Oder weil Zusammenhänge hergestellt werden, die die Daten gar nicht hergeben.

Ich beschäftige mich hier im Blog ja immer wieder vor allem mit Fehlern in der Demoskopie. Wer noch mal eine grundsätzliche Einführung in das Thema bekommen möchte, dem empfehle ich den Vortrag von Spiegel-online-Datenjournalist Philipp Seibst und Statistikprofessor Björn Christensen von der Uni Kiel, den sie beim Jahrestreffen des Netzwerks Recherche gehalten haben.

Darin legen sie nicht nur offen, wie absurd manche Umfragen und Studien sind, sondern haben auch jede Menge unterhaltsamer Beispiele parat, über die man – wenn man sie dann verstanden hat – nur noch lachen kann. Sie beantworten zum Beispiel die Frage, ob Schwangere wirklich schlechter Auto fahren (oder versuchen es zumindest).

Kölner Stadt-Anzeiger lässt Ihnen keine Wahl, sich auf Kylie Minogue zu freuen

Der Kölner Stadt-Anzeiger demonstriert mal wieder, wie sinnbefreit manche dieser User-Engagement-Umfragen sind. Zu einem Artikel vom Montag darüber, dass Kylie Minogue für ein Konzert nach Köln kommt, werden die Nutzer gefragt, ob sie Fan von Kylie Minogue sind.

Die Antwortmöglichkeiten: Ja und ja. Oder so formuliert:

Von ihrer Musik nicht, aber ich finde sie sehr attraktiv.

Ja. Die Musik macht Laune.

Von ein bisschen Sexismus mal abgesehen: Zu welchen Erkenntnissen will man eigentlich mit solchen Umfragen kommen?

Später wurde die Umfrage übrigens geändert. Jetzt hat man eine etwas bessere Wahl.

Keine eindeutige Mehrheit für CSU-Politik – Spiegel online interpretiert das aber anders

Die Überschrift ist natürlich ein Eyecatcher:

Mehrheit will CSU-Politik – aber mit Merkel als Kanzlerin

titelt Spiegel online. Der Text gibt das aber gar nicht her. Warum nicht?

Die Überschrift suggeriert, es gebe eine Mehrheit, die die CSU-Politik will und gleichzeitig Merkel als Kanzlerin. Darin liegt natürlich ein Widerspruch angesichts des derzeitigen Streits zwischen CDU und CSU, in dem ja ausgerechnet die CDU-Politikerin Angela Merkel die Position der CSU in der Migrationspolitik ablehnt.

Darin liegen aber zwei Fehldeutungen: Zum einen wurde gar nicht explizit nach der CSU-Politik gefragt, sondern nach verschiedenen Aspekten, die durchaus unterschiedlich beurteilt wurden. Zum anderen handelt es sich nicht um eine deckungsgleiche Mehrheit von Menschen, die beides gleichzeitig wollen, sondern um eine Mehrheit für die CSU-Politik einerseits und um eine Mehrheit für die Kanzlerin andererseits.

Zahlen geben keine Mehrheit für CSU-Politik her

Erst mal zu Punkt 1: Die Redaktion leitet ihre Zusammenfassung, was CSU-Politik ist, aus Antworten zu verschiedenen Fragen ab: einmal 57 Prozent, die für einen erschwerten Zugang von Flüchtlingen nach Deutschland sind, einmal 61 Prozent, die genau wie die CSU Flüchtlingen an der Grenze zurückweisen wollen, die schon in einem anderen EU-Land registriert wurden. Wichtiges Element der CSU-Politik ist aber auch die Frage, ob Deutschland versuchen sollte, die Flüchtlingsproblematik eher auf nationaler Ebene oder gemeinsam mit den EU-Partnern zu lösen. Da teilen nur 25 Prozent die CSU-Linie, die Frage solle national gelöst werden; 68 Prozent sagen, dass dies nur auf europäischer Ebene möglich ist – was wiederum die Position Angela Merkels ist.

In zwei von drei Aspekten der CSU-Politik gibt es also eine Mehrheit, bei einem wichtigen Aspekt aber nicht. Daraus schlusszufolgern, eine Mehrheit sei für die CSU-Politik, wo es zumindest Widersprüche gibt, finde ich nicht zulässig.

Mehrheit für CSU-Politik und Merkel ist nicht deckungsgleich

Jetzt zum anderen Aspekt: Auf die Frage, ob Merkel Bundeskanzlerin bleiben soll, antworten 58 Prozent mit Ja – also in derselben Bandbreite wie bei den ersten beiden Fragen. Da liegt es nahe, zu denken, dass das fast dieselbe Gruppe sei wie die, die die CSU-Positionen unterstützen.

Das muss aber nicht so sein und lässt sich zumindest an dem veröffentlichten Zahlenmaterial nicht ablesen: Von den 58 Prozent für Merkel können rechnerisch 43 Prozentpunkte gegen einen erschwerten Zuzug sein – dann wären nur die übrigen 15 Prozentpunkte sowohl für eine CSU-Position als auch für Merkel. Der Widerspruch wäre also längst nicht so groß wie von Spiegel online suggeriert.

Interessant in dem Zusammenhang ist die Reihenfolge, in der Spiegel online die Ergebnisse präsentiert: zunächst die beiden Mehrheiten für CSU-Positionen, dann die Mehrheit für Merkel, dann eine Mehrheit gegen eine CSU-Position. Hätte man die Ergebnisse zu CSU-Positionen zusammen präsentiert, wäre der Widerspruch aufgefallen – aber die Überschrift nicht mehr möglich gewesen.

Umfragedesign transparent gemacht

Um zum Schluss zu loben: Spiegel online hat transparent (und ohne Nachfrage) das Umfragedesign offengelegt, also mitgeteilt, wann wie viele Leute befragt wurden, ob die Umfrage repräsentativ ist und wie Fragestellung und Antwortmöglichkeiten lauteten. Ohne diese Angaben, die größtenteils vom Pressekodex gefordert werden, hätte ich die Aussagekraft dieser Umfrage nämlich gar nicht auf diese Weise einschätzen können.

t-online stellt Umfrageergebnisse vorbildlich dar

Vorgestern habe ich hier eine Umfrage zu den öffentlich-rechtlichen Sendern kritisiert, weil die Frage dazu einem Teil der Teilnehmer suggestiv gestellt worden war. Civey hat damals auf dem Twitter-Account reagiert, was ich grundsätzlich gut finde, auch wenn die Antworten nicht ganz zufriedenstellend waren.

Was ich bei Civey auch gerne lobe, ist die Tatsache, dass die Fragestellung immer transparent ist. Während viele Umfragen, wenn sie veröffentlicht werden, eher aus Interpretation bestehen, wird bei Civey auch dort, wo die Ergebnisse vorgestellt werden, fast immer deutlich, welches die Fragestellung war. Warum die so wichtig ist, habe ich ebenfalls hier erläutert. Das ist auch der Grund, warum der Pressekodex fordert, dass die Fragestellung genannt wird, wenn Ergebnisse präsentiert werden:

Bei der Veröffentlichung von Umfrageergebnissen teilt die Presse die Zahl der Befragten, den Zeitpunkt der Befragung, den Auftraggeber sowie die Fragestellung mit.

Bei einer Umfrage, die t-online.de gestern veröffentlichte, fehlte in der ersten Textfassung zu den Ergebnissen genau diese Fragestellung.

Diese hat Chefredakteur Florian Harms jedoch nach einer Nachfrage dankenswerterweise ergänzt. Jetzt heißt es dort:

In der Studie sollten die Befragten angeben, inwiefern sie den politischen gesellschaftlichen und politischen Institutionen „ganz allgemein vertrauen oder nicht vertrauen.“ Dabei konnten sie zwischen den Antwortmöglichkeiten „Sehr großes Vertrauen“, „Eher großes Vertrauen“, „Eher geringes Vertrauen“ und „Überhaupt kein Vertrauen“ wählen.

Womöglich hat das zu einem Sinneswandel in der Redaktion geführt. In einer weiteren Umfrage, die t-online heute veröffentlicht, heißt es jetzt sogar noch ausdrücklicher:

Die gestellte Frage lautete: Wie bewerten Sie, dass sich die deutschen Nationalspieler Özil und Gündogan mit dem türkischen Präsidenten Erdogan getroffen haben? 

Diese Umfrage wurde von Civey durchgeführt, die dabei auch wieder die Antwortmöglichkeiten angeben:

  • völlig akzeptabel
  • eher akzeptabel
  • unentschieden
  • eher inakzeptabel
  • völlig inakzeptabel

Das ist auch eine vernünftige Skalierung, die nicht zulasten einer Seite ausschlägt. Auch das Ergebnis lässt sich differenziert anzeigen – alternativ zusammenfassend für „akzeptabel“ bzw. „nicht akzeptabel“ (die ersten beiden bzw. letzten beiden Antwortmöglichkeiten).

Unabhängig vom Thema und meiner üblichen Kritik an Umfragen im Allgemeinen kommt die Redaktion hier ihrer Verpflichtung laut Pressekodex nach und geht mit den Antwortmöglichkeiten sogar darüber hinaus. Das ist vorbildlich, weil es ermöglicht, ohne größeren Aufwand über die Plausbilität und die Aussagekraft der Umfrage zu diskutieren. So sollte es sein.

Eine Umfrage, die nichts aussagt, aber Stimmung macht

Wenn Sie abstimmen müssten, ob sie lieber einen Apfel oder eine Banane haben wollen, wie würden Sie sich entscheiden?

Stellen Sie sich vor, ich sage Ihnen, dass die Banane relativ viel Zucker enthält und leicht zu Verstopfung führen kann, während der Apfel wenige Kalorien hat und sehr gesund ist: Wie würden Sie sich jetzt entscheiden?

Die Fragestellung bei einer Umfrage ist enorm entscheidend für das Ergebnis. Die Kognitionsforscherin Elisabeth Wehling beschreibt es so:

Umfragen nutzen oft die falschen Wörter. Wörter nämlich, die im Gehirn des Antwortenden ideologisch selektive Deutungsmuster aufrufen. Wörter, die damit seine Positionierung zu einem Thema entscheidend mit vorgeben. Befragt man Bürger zur Migrationsbewegung, so sprechen sie sich eher dafür aus – spricht man sie aber auf die Migrationswelle an, sind sie stärker dagegen. Und zwar bei identischer Faktenlage!

Wichtig ist aber auch der Kontext der Umfrage: Welche Informationen gebe ich, bevor ich meine Frage stelle? Gerd Bosbach, Professor für Empirische Wirtschafts- und Sozialforschung an der Hochschule Koblenz, sagte mir für ein Interview:

Wenn ich eine Stimmung abfrage und versetze Sie über die Fragen vorher in eine nette Atmosphäre – ich frag Sie über Urlaub – dann sind Sie in einer guten Stimmung. Wenn Sie dann eine Stimmungsfrage bekommen zum Beispiel zu einer Regierung bekommen, dann werden Sie sich wahrscheinlich anders verhalten, als wenn ich sie vorher in schlechte Stimmung – wieviel Steuern zahlen Sie, wie ist das in der letzten Zeit gewachsen, wieviel Geld fehlt Ihnen? In dem Augenblick sind Sie nachher sauer, und wenn Sie sauer sind, werden Sie auf eine Stimmungsfrage ganz anders reagieren.

Ich habe hier schon öfter gezeigt, wie suggestiv die Fragestellung bei Umfragen sein kann. Neulich geriet mir aber eine besonders voreingenommene Fragestellung ins Postfach.

Das Umfrageunternehmen Civey fragte, wieviel die Leute bereit wären, für öffentlich-rechtlichen Rundfunk zu bezahlen, und leitet das mit diesen Vorbemerkungen ein:

Also zusammengefasst: „unabhängig von der Nutzung“, „Kritik“, „Klagen“, „Verfassungsbeschwerden“, „unrechtmäßig“, „verstößt gegen Gleichheitssatz“. Ausschließlich Argumente gegen den öffentlich-rechtlichen Rundfunk. Und jetzt sagen Sie mal bitte, wie viel Sie monatlich zahlen würden?

Zum Stand der Veröffentlichung dieses Blogbeitrags sagten 40,4 Prozent, sie würden „nichts“ bezahlen wollen, 13,7 % zwischen 1 und 5 Euro, 18,7 % zwischen 6 und 10 Euro.

Überrascht Sie das Ergebnis?

Mit der Kritik konfrontiert, verweist Civey auf Hintergrundinformationen, wie sie statistische Unsicherheiten vermeiden:

Das heißt: die Stimmen, die wir über unseren Newsletter generieren, werden für die Frage, die wir im Newsletter versenden, kaum berücksichtigt, damit wir eine suggestive Beeinflussung durch den Kontext vermeiden. Wichtig sind die Stimmen auf „empfohlene Umfragen“.

Wenn Sie die Umfrageergebnisse verfolgen, werden Sie daher sehen, dass der statistische Fehler noch sehr hoch bleibt, solange vor allem Direkt-Votes auf der Umfrage sind. Daher sind manche unserer Umfragen, selbst mit mehreren tausend Abstimmungen, noch nicht repräsentativ.

Das heißt: Nutzer werden per Newsletter dazu aufgerufen, an einer Umfrage teilzunehmen, deren Stimmen werden dann aber kaum berücksichtigt? Das erscheint mir nicht sonderlich plausibel. Civey schreibt dazu (nachzulesen im obigen Twitter-Thread):

Mit dem Newsletter präsentieren wir unserem Panel in der Regel ein tagesaktuelles Thema, zu dem wir eine neue Umfrage erstellt haben. Auch beim Newsletter gilt allerdings: für das System wichtig sind vor allem die Stimmen, die die Nutzer auf weitere Umfragen tätigen. (1/2)

So wird die Frage, die wir im Newsletter ausspielen, auch auf den anderen der rund 25.000 Webseiten ausgespielt, die unsere Umfragen täglich einbinden. Durch diese Votes wird sie dann schließlich repräsentativ. (2/2)

Der Newsletter lässt meist leider (auch aufgrund der gebotenen Kürze) keine umfassende Betrachtung eines Themas zu. Wir bemühen uns aber in der Regel um eine nicht allzu einseitige Formulierung und werden uns dies auch in Zukunft zu Herzen nehmen. Danke für das Feedback!

Und selbst wenn der Großteil der Stimmen in einem kontextfreien Umfeld erhoben wurde, kommen mir die als repräsentativ ausgewiesenen Ergebnisse nicht sonderlich plausibel vor. Etwa wegen der Fragestellung:

Wie viel würden Sie monatlich pro Haushalt für den öffentlich-rechtlichen Rundfunk bezahlen, wenn Sie selbst entscheiden könnten?

Bedeutet die Antwort „Nichts“, dass die Antwortenden gerne einen öffentlich-rechtlichen Rundfunk hätten, dafür aber nichts bezahlen wollen? Das wäre nicht realisierbar. Oder bedeutet das, dass die Antwortenden überhaupt keinen öffentlich-rechtlichen Rundfunk möchten, wenn sie dafür bezahlen müssten? Das widerspricht wiederum andere Umfragen, nach denen es eine Mehrheit für den Erhalt des Systems gibt. Oder würden sie für weniger Geld auch weniger Programm akzeptieren?

Ein verwertbares Ergebnis bringt diese Umfrage also nicht. Das hätte man sich aufgrund der Fragestellung, der Kontextualisierung und der Antwortoptionen aber vorher denken können. So bleibt die Frage offen, welchen Zweck die Umfrage überhaupt noch hat. Mir fallen nur zwei mögliche Antworten ein: Entweder wurde sie gedankenlos erstellt, oder man wollte damit Stimmung machen.

 

Anmerkung: In Vorbereitung auf die Datenschutzgrundverordnung habe ich Widgets, die sich ursprünglich im Text befanden, entfernt und sie durch Links ersetzt.

Welt online feiert unbegründet „Jahrestief“ der Union

Und schon wieder sind Journalisten leichtsinnig mit den Ergebnissen einer Umfrage umgegangen. In diesem Fall offenbar Journalisten der Nachrichtenagentur Reuters, deren Meldung Welt online übernommen und nur leicht redaktionell bearbeitet hat. Die mangelnde Aussagekraft dieser Bewegung, die in der Überschrift steht, kann dadurch aber auch nicht wettgemacht werden. Dort heißt es:

Union sinkt in Wählerumfrage auf Jahrestief

Tatsächlich heißt es im Text:

Im „Sonntagstrend“,den das Meinungsforschungsinstitut Emnid  wöchentlich für die Zeitung „Bild am Sonntag“ erhebt, verlieren CDU/CSU einen Prozentpunkt auf 32 Prozent.

Dieser eine Prozentpunkt ist Anlass für die Überschrift. Das Problem ist, dass dieser eine Prozentpunkt so präzise gar nicht messbar ist.

Umfragen kommen immer mit einer gewissen Unschärfe daher. Die Werte liegen also nicht fest, sondern geben die Mitte einer Schwankungsbreite an. Bei etwa 30 Prozent liegt sie bei rund 2,5 Prozentpunkten. Das heißt, wir reden nicht von 32 Prozent, sondern von einem Bereich zwischen 29,5 und 34,5 Prozent.

Und auch die werden nur mit 95-prozentiger Wahrscheinlichkeit erreicht. Das heißt: Würde die Umfrage 20-mal unter denselben Bedingungen durchgeführt, könnte die Abweichungen in einem Fall sogar größer sein. (Mal davon abgesehen, dass dieselben Bedingungen nicht reproduzierbar sind, denn jeder Befragte würde bei jeder weiteren Umfrage zu einem anderen Zeitpunkt, in anderen Umständen, mit womöglich anderem Wissen und einer anderen Meinung angetroffen werden).

Wenn der ermittelte Wert also beim letzten Mal bei 33 Prozent lag und dieses Mal bei 32 Prozent, hätte er beim letzten Mal auch bei 30,5 Prozent liegen können und dieses Mal bei 34,5 Prozent. Dann wäre das sogar eine Verbesserung und alles andere als ein „Jahrestief“. Oder im umgekehrten Extrem lag er beim letzten Mal bei 35,5 Prozent und dieses Mal bei 29,5 Prozent. Dann wäre das eine wirkliche Verschlechterung gewesen.

Messen kann man die aber nicht, deswegen ist jede Schlagzeile wie die von Welt online, die Rekordwerte suggeriert, nicht ausreichend von Fakten gedeckt.

Die Meldung stellt darüber hinaus noch unzulässig einen Zusammenhang her, den es nicht gibt. So heißt es:

Nach der Wahl von Andrea Nahles zur neuen Parteichefin verharrt die SPD bei 18 Prozent.

Das klingt so, als sei Nahles zum Zeitpunkt der Befragung bereits SPD-Chefin gewesen. War sie aber nur bei einem Teil der Befragten, denn weiter heißt es im Text:

Befragt wurden den Angaben zufolge zwischen dem 19. und 25. April 2350 repräsentativ ausgewählte Personen.

Gewählt wurde Nahles aber erst am 22. April. Wer also vorher befragt wurde, konnte nicht auf die Wahl reagieren – wer danach befragt wurde, schon.

 

Anmerkung: In Vorbereitung auf die Datenschutzgrundverordnung habe ich Widgets, die sich ursprünglich im Text befanden, entfernt und sie teilweise durch Links ersetzt.

Presserat beanstandet Online-Umfrage

Umfragen sind äußerst beliebt bei Journalisten. Viele Redaktionen starten gerne eigene im Internet. Besonders aussagekräftig sind die Ergebnisse aber nicht und gefährden damit die journalistische Glaubwürdigkeit. Der Presserat hat jetzt eine manipulierbare Online-Umfrage des Münchner Merkurs beanstandet, wie ich für @mediasres im Deutschlandfunk berichtet habe.

Die unseriösesten Umfragewerte der Woche

WDR2 hat die richtige Antwort gefunden auf die Flut von Umfragen, die vorgaukeln, abzubilden, was „die Deutschen“ denken und wollen. Tom Beinlich von Infam, dem Institut für angewandte Meinungsmache, präsentiert jeden Mittwoch „die unseriösesten Umfragewerte der Woche“ – in der „Meinung am Mittwoch“. Wenngleich ich mir noch unseriösere Werte vorstellen kann…