Mit der richtigen Manipulation läßt sich mit Statistiken für fast jede Aussage ein Beleg konstruieren. Das hätte ich früher nicht geglaubt, aber befaßt man sich etwas eingehender mit dem Thema, stellt man schnell fest, wie viele Manipulationsmöglichkeiten es gibt, die oftmals sogar durchaus zulässig sind – aber völlig unterschiedliche Ergebnisse produzieren.
Ein schönes Beispiel dafür sind die Unfallstatistiken für Verkehrsmittel. Häufig werden Flugzeuge als sicherstes Verkehrsmittel überhaupt bezeichnet, weil die Anzahl der Toten bezogen auf die gesammelten Personenkilometer Strecke mit Abstand viel geringer ist als für Autos oder Züge. Allerdings werden im Flugzeug natürlich in sehr kurze Zeit oftmals enorm weite Strecken zurückgelegt. Berechnet man die Anzahl der Verkehrstoten bezogen auf die im Verkehrsmittel verbrachte Zeit, ist die Bahn sicherer als ein Flugzeug – was aber natürlich außer Acht läßt, daß die meisten Menschen sehr wenig Zeit in Flugzeugen verbringen und sehr viel mehr Zeit in Zügen. Welche der beiden Bezugsgrößen die angemessenere ist, darüber kann man endlos streiten – denn beides hat seine Berechtigung und eigene innere Logik.
Ähnliches gilt für die Pünktlichkeit der Bahn. Seit Jahren wundere ich mich als Vielfahrerin über die hauseigene Statistik, nach der etwa 95 % der Züge angeblich pünktlich seien. Meine subjektive Wahrnehmung ist allerdings zweifach verzerrt: erstes fahre ich viel Fernstrecke und habe daher bei Regional- und Bummelzugverbindungen keine repräsentative Erfahrung. Zweitens kommt es darauf an, wie man “pünktlich” definiert. Für die Bahn sind nämlich Züge bis unter sechs Minuten Verspätung pünktlich, und das hilft statistisch natürlich enorm. Für die Schweizer Bahn hingegen gelten nur Züge mit maximal vier Minuten Verspätung als pünktlich, und dennoch (!) sind die Züge dort im Durchschnitt pünktlicher – aber das hat natürlich auch noch andere Gründe, die wir hier schon einmal ausführlich diskutiert haben. Beide Beispiele illustrieren jedoch, daß es keiner großen Fälschung, Böswilligkeit oder Manipulation bedarf, um zu völlig unterschiedlichen Ergebnissen zu kommen.
Eine ganz andere Dimension statistischer Verzerrung ergibt sich bei Daten, die aus Umfragen erhoben werden. Je nach Thema sind Menschen mehr oder weniger geneigt, die Wahrheit zu sagen, gerade wenn es um heikle Themen wie Steuerhinterziehung oder handfeste Methoden der Kindererziehung geht. Forscher verwenden daher unendlich viel Mühe darauf, Fragebögen so zu strukturieren und formulieren, daß die Ergebnisse möglichst unverfälscht erhoben werden können. Auch wenn den Befragten noch so viel Anonymität zugesichert wird, schämt sich der Mensch immer noch vor seinem Gegenüber und neigt offenbar dazu, Antworten entsprechend anzupassen.
Vor allem gilt es natürlich, suggestive Fragen zu vermeiden und Sachverhalte möglichst neutral zu benennen. Darüber hinaus gibt es aber unzählige weitere Fallstricke, und die diversen “response biases” sind mittlerweile Gegenstand eines eigenen Forschungsfelds. Tatsächlich ändern sich die Antworten bereits, wenn man eine Frage positiv oder negativ formuliert, also – beispielsweise – ob das Wahlrecht ab 16 eingeführt werden solle, oder weiter verboten werden solle.
Eine deutsche Studie hat auch gezeigt, wie wesentlich Skalierungen für die Antworten sind. Bürger wurden nach ihrem Fernsehkonsum befragt, teilweise beginnend bei 30 Minuten und dann aufsteigend, teilweise mit Kategorien, die alles unterhalb von 2,5 Stunden täglich bündelten. Bei der feineren Kategorisierung gab ein wesentlich geringerer Teil der Bevölkerung an, mehr als 2,5 Stunden täglich vorm Fernseher zu verbringen – mutmaßlich, weil aus der Skalierung eine Art “normaler Konsum” abgeleitet wurde, und sich der einzelne dann oft im Verhältnis dazu einordnete.
Bei heiklen Sachverhalten ist besondere Vorsicht angezeigt: Wenig schlau ist es, Firmen in Entwicklungsländern zu befragen, wie oft sie im vergangenen Jahr Bestechungsgelder bezahlt haben. Besser hingegen, zu fragen, wie oft – nach Meinung des Befragten – eine durchschnittliche Firma seiner Branche im vergangenen Jahr üblicherweise zu Bestechung greifen müsse. Manche Studien kombinieren sogar Fragebögen mit Experimenten, die auf subtile Art Indikatoren für Ehrlichkeit oder Aufrichtigkeit der Befragten zu konstruieren versuchen, mit denen sich wiederum die Ergebnisse korrigieren lassen.
Hat man sämtliche verzerrenden Einflüsse aus Fragestellung und Skalierung nach Möglichkeit bereinigt, bleibt natürlich immer noch die oben erwähnte menschliche Interaktion zwischen Befrager und Befragten. Hier können “randomized response” Techniken helfen, bei denen der Befragte die Fragen in zufälliger Reihenfolge vorgelegt bekommt. Der Interviewer hingegen erfährt die Frage gar nicht, sondern zeichnet nur die Antworten auf. Mit dieser Methode steigt zum Beispiel der Anteil der Eltern, die Handgreiflichkeiten ihrem Kind gegenüber zugeben – aber es bleibt immer noch eine Fehlerquote. Offenbar gibt es die perfekte Erhebungstechnik nicht – irgendetwas verzerrt Ergebnisse immer.
Selbst wenn man sich also intensiv mit der mathematischen Seite einer Statistik befasst hat, bleiben immer noch Unwägbarkeiten – und die Diskretionsentscheidungen des Forschers. Hat zum Beispiel ein Befragter eine völlig sinnlose Antwort gegeben, weil diese spezielle Frage falsch verstanden wurde, schließt man dann alle seiner Antworten aus, weil er vielleicht dort auch, aber weniger offensichtlich, alles falsch verstanden hat? Viel wurde über die Gewichtung in der Forschung von Reinhart & Rogoff diskutiert – aber das Dilemma kennt fast jeder empirische Makroökonom, auf die ein oder andere Art und Weise. Sollte man in vergleichenden Länderstudien ölexportierende Länder wie andere behandeln, oder sind sie so speziell, daß sie alle Ergebnisse verzerren? Und was ist mit anderen rohstoffexportierenden Ländern? Wo zieht man die Grenze? Viele Fragen, und keine Antwort ist jemals absolut richtig oder absolut falsch – es kommt eben auf die Umstände an.
Am Ende bleibt nur, kritisch, mit gesundem Menschenverstand, aber auch ohne Vorurteile an Zahlen, Mathematik, Statistik heran zu gehen – solche Mühe wird dann meist mit interessanten Erkenntnissen belohnt. Ich hoffe, mit meinen Beiträgen hier hin und wieder ein wenig dazu beigetragen zu haben, Statistik und Mathematik im Alltag anschaulich und interessant zu machen. Ich danke Ihnen, meinen Lesern, für viele spannende und auch für mich immer wieder lehrreiche Debatten, konstruktive und unterhaltsame Diskussionen und vor allem für Ihre treuen Besuche in diesem Salon! Ich werde mich zukünftig der Statistik in einem anderen Umfeld widmen, aber die geschätzten Kollegen werden hier weiter die Fahne des gepflegten Diskurses hochhalten, nur eben ohne mich.