Grundgesamtheit und Stichprobe
Wir werden uns zunächst mit den Begriffen „Grundgesamtheit“ und „Stichprobe“ vertraut machen. Dazu betreten wir einen Raum, dessen Wände mit Hieroglyphen bemalt sind, so dass wir uns wie in einem der altägyptischen Königsgräber fühlen. Glücklicherweise müssen wir nicht altägyptisch lesen können, weil der Text auch übersetzt wurde. Außerdem steht an der Wand eine alte Apparatur, die wie eine Registrierkasse aussieht. Der Text wurde einem kürzlich entschlüsselten altägyptischen Papyrus entnommen. Auf diesem stark beschädigten Papyrus, der seit Jahrzehnten im ägyptischen Museum in Kairo aufbewahrt und restauriert wurde, wird ein Problem beschrieben, das Ramses II vor der Schlacht von Kadesch (1274 v. Chr.) beschäftigt zu haben scheint.
Ramses II. (1303-1213 v. Chr.) wird hier beschrieben als einer der bedeutendsten Pharaonen des alten Ägyptens. Seine monumentalen Bauten sind auch heute noch sehr beeindruckend und Zeichen seiner großen Macht und außergewöhnlichen Reichtums. Damals wurde das Land von loyalen Beamten verwaltet, denen an der Spitze der Großwesir vorsaß, der Berater des Pharaos. Eines Tages plante Ramses einen Feldzug, um die Hethiter zu unterwerfen, die das heutige Palästina erobert hatten und die immer wieder die ägyptische Nordgrenze auf ihren Raubzügen überschritten. Als weiser Herrscher wollte er vor einem Feldzug wissen, welche Bürde er seinen Bewohnern zumuten konnte. Dazu musste er vordringlich wissen, wie viele männliche Ägypter von ihm regiert wurden, denn schließlich konnte er nicht alle männlichen Ägypter in den Krieg führen. Er konnte maximal einen bestimmten Prozentsatz zu guten Kriegern ausbilden. Einen weiteren Teil benötigte er, um seine Krieger zu versorgen, und einen dritten Teil, um die Felder in seinem Land weiter zu bestellen.
Um sich eine verlässliche Übersicht zu beschaffen, rief er den Großwesir Paser zu sich, der damals oberster Staatsbeamter, Schatzmeister und Oberaufseher über den Bau der Königsgräber war. Paser war ein sehr angesehener, intelligenter und loyaler Diener des Pharaos, der sich sehr gewissenhaft an der Staatsführung beteiligte. Ramses forderte von ihm eine Übersicht seiner 18 Provinzen innerhalb von drei Monaten. Paser beriet sich sofort mit seinem Beamtenstab, um die Zählung zu organisieren, denn schließlich hatten sie nur drei Monate Zeit. Nach einigen Augenblicken erhob der königliche Schreiber Ramose das Wort und fragte den Großwesir Paser, was eigentlich erfasst werden solle? Was soll gezählt werden? Die Anweisung des Pharaos war unterbestimmt, denn er verlangte nur, männliche Ägypter zu zählen. Aber ab welchem oder bis zu welchem Alter? Wie sieht es mit den Schwachen und Kranken aus, die weder als Krieger tauglich wären, noch arbeiten können. Außerdem müsste durch eindeutige und nachvollziehbare Kriterien festgelegt werden, wer überhaupt als Ägypter gilt, denn früher gab es noch keine Pässe mit Nationalzugehörigkeit. Wer ist ein Ägypter? Alle, die in Ägypten geboren wurden? Alle, die zurzeit dort leben? Alle, deren Mütter Ägypterinnen sind? Da die Bevölkerung den Grund der Volkszählung nicht kennt, wäre zu befürchten, dass sich alle Männer als Nicht-Ägypter ausgeben. Sie würden unterstellen, dass die Zählung dazu dient, in naher Zukunft Krieger zwangsweise in den Provinzen zu rekrutieren oder eine neue Kopfsteuer einzuführen. In diesen Fällen wäre es für die Männer vorteilhafter, zu behaupten, dass sie kein Ägypter sind. Ramose forderte klare und eindeutige Kriterien, wie man über den Status von männlichen Personen entscheiden könne. Der Großwesir Paser dachte damals kurz darüber nach, was im Interesse des Pharaos wäre und das eigentliche Ziel der Zählung sei, und legte daraufhin fest, — wenn man den Ausführungen im Papyrus glaubt, — dass alle gesunden Männer zwischen 16 und 35 Jahren gezählt werden sollen, die für den Kriegsdienst oder die Feldarbeit tauglich wären – egal woher sie stammen.
Jede Untersuchung, Studie oder Volkszählung beginnt damit, im Detail festzulegen, an welcher Population oder Grundgesamtheit wir interessiert sind und warum. Wir müssen genau beschreiben, was wir mit der Untersuchung bezwecken bzw. welches Ziel wir verfolgen. Der Zweck und die Ziele definieren die Population oder Grundgesamtheit, an der wir interessiert sind. Ohne klare Angaben über die Personen, die wir ein- oder ausschließen, wissen wir gar nicht, wen wir untersuchen sollen. Damit stößt jede Studie ins Leere, denn wenn wir unsere Grundgesamtheit nicht genau definiert haben, können wir die Ergebnisse überhaupt nicht sinnvoll bewerten oder interpretieren. Es könnte auch sein, dass wir die falschen Personen untersuchen und damit unser Ziel völlig verfehlen. Vage Angaben über das angestrebte Ziel führen meistens zu einer konfusen Studie mit nicht eindeutig interpretierbaren Ergebnissen. Solche Studien sind später wertlos und haben lediglich kostbare Ressourcen verschleudert. Je klarer das Ziel, je exakter der Zweck beschrieben wird, umso präziser ist dann auch die Population beschrieben. Und, um es vorweg zu nehmen, umso besser ist dann auch die Studie.
Zusätzlich sollten wir bedenken, dass bereits die Festlegung der Grundgesamtheit das Ergebnis festlegen kann. Denken wir dabei an die Auswahl der Geschworenen bei einem Schwurgerichtsprozess. Die richtige Auswahl kann das Urteil sehr stark beeinflussen. Denken wir an Studien über neue Medikamente, bei denen die richtige Auswahl an Patienten, die auf das neue Medikament sehr gut ansprechen, ein positives Ergebnis quasi garantiert. Die Pharmaindustrie beschäftigt speziell geschulte Mitarbeiter, die Studien so gestalten, dass ein positives Ergebnis hoch wahrscheinlich ist. Keine Pharmafirma könnte es sich dauerhaft leisten, Studien mit negativen Ergebnissen zu finanzieren. Dazu sind die Studien einfach zu teuer. Da ein „spezielles“ Studiendesign per se nichts Verwerfliches ist, solange sich das Studienkonzept an die Regeln der „Good Clinical Practice“ orientiert, sollten wir immer auf die genauen Definitionen der Einschluss- und Ausschlusskriterien achten, wenn wir eine wissenschaftliche Studie lesen. Bereits mit der Auswahl der Studienteilnehmer werden die potentiellen Ergebnisse eingeengt. Negative Ergebnisse werden unwahrscheinlicher und die erwünschten Ergebnisse wahrscheinlicher.
Wenn wir schwer Erkrankte untersuchen, die eine besonders ausgeprägte Entzündungsreaktion aufweisen, dann wirkt ein entzündungshemmendes Medikament besser, als wenn wir dasselbe Krankheitsbild mit einer geringen Ausprägung der Entzündung auswählen. Das klingt plausibel? Das Problem ist, dass später von der Pharmafirma behauptet wird, dass das Medikament bei allen Patienten mit der Erkrankung wirkt und nicht nur bei denjenigen, die an einer starken Entzündungsreaktion leiden. In der sorgfältig geplanten Studie wurde ganz bewusst eine bestimmte Population P1 ausgewählt und später wird das Ergebnis in den Hochglanzbroschüren stillschweigend auf eine größere Population P2 übertragen, was eigentlich nicht statthaft ist. So behandeln wir heute einige Patienten, die älter als 80 Jahre sind, mit Medikamenten, deren positiver Effekt nur bei Patienten belegt ist, die in den Studien jünger als 70 Jahre alt waren. Manche dieser Medikamente haben zum Teil sehr starke, tödliche Nebenwirkungen und können die Patienten massiv beeinträchtigen. Da in den Studien ein positiver Einfluss auf das Überleben nachgewiesen werden konnte, erscheint die Medikamenteneinnahme bei den unter 70jährigen gerechtfertigt. Ob dieser Effekt aber auch noch bei den älteren Patienten besteht, erscheint mehr als fraglich. Aber dennoch werden die Medikamente mit dem Hinweis appliziert, dass sie ja einen positiven Einfluss haben. Auf die Einschluss- und Ausschlusskriterien schaut später kaum noch jemand.
Der Zweck einer Studie legt theoretisch fest, welche Population untersucht werden soll. Bedauerlicherweise gibt es auch Untersucher, die bewusst dagegen verstoßen, um ein vorher gewünschtes Resultat als Ergebnis einer wissenschaftlichen Studie zu präsentieren. Sie gehen so vor, dass sie zu Beginn alles nur vage angeben und solange „forschen“, bis sie die „gesuchten“ Ergebnisse gefunden haben. Erst dann wird im Nachhinein der Zweck spezifischer formuliert und die gefundene Population genauer definiert. Auf diese Weise können dann beliebige Resultate als wissenschaftlich fundiert ausgegeben werden. Um dieses Fehlverhalten zu vermeiden, ist heute vorgeschrieben, dass wir vor Beginn einer Studie in einem Studienprotokoll genau das Ziel und den Zweck sowie die zu untersuchende Population beschreiben. Ob sich die Forscher aber daran halten, bleibt verborgen, weil nur die positiven Resultate publiziert werden, und niemand mit Sicherheit weiß, ob der Studie mit den günstigen Ergebnissen nicht bereits fünf Studien mit ungünstigen Ergebnissen vorausgingen.
Besonders bei den im politischen Alltag allseits beliebten Umfragen kann besonders leicht und sogar gezielt ein Ergebnis manipuliert werden, indem die befragte Population geschickt ausgewählt wird. Wenn wir uns für aktuelle Umfragen interessieren, sollten wir nach Informationen suchen, welche Personen unter welchen Bedingungen befragt wurden. Ohne diese Angaben, die im Fernsehen oder in der Boulevardpresse immer unterschlagen werden, sind die Ergebnisse nicht sinnvoll interpretierbar und wir sollten misstrauisch unterstellen, dass wir bewussten Manipulationen ausgesetzt sind. Wenn wir Jugendliche in München auf der Straße fragen, ob sie „Die Grünen“ oder die „CSU“ besser finden oder für das Rauchverbot sind, dann erhalten wir ein anderes Ergebnis, als wenn wir uns im Hofbräuhaus umhören. Die Ergebnisse solcher hochgradig selektierten Umfragen sind per se vorhersagbar und unnütz. Deshalb werden sie auch nicht in allen Details publiziert, sondern es wird nur oberflächlich von einer Umfrage gesprochen.
Doch nun zurück zu den Ägyptern. Sie hatten in einem ersten Schritt die Grundgesamtheit definiert, die gezählt werden sollte. Bereits nach kurzer Beratung wurde deutlich, dass eine exakte Zählung innerhalb dieser drei Monate logistisch nicht durchführbar war. Eine gewissenhafte Zählung würde voraussetzen, dass zu einem definierten Zeitpunkt an allen Zählpunkten in allen Provinzen gezählt würde. Dazu wäre eine große Menge an Zählpunkten erforderlich, um eine übersichtliche Zählung vornehmen zu können. Theoretisch müsste in jedem Dorf eine kleine Beamtenschar anwesend sein, um die Zählung vorzunehmen. Zusätzlich müssten alle Dörfer und Städte vorher informiert werden, dass eine Zählung geplant ist, denn zu diesem Zeitpunkt müssten alle Reisen verboten werden, um Doppelzählungen zu vermeiden. Das größte Problem war aber die begrenzte Zeit. Man hätte mindestens acht Wochen benötigt, um die Beamten in den Provinzen zu instruieren, weitere vier Wochen, um zu zählen, und weitere acht Wochen, um die Daten in der Hauptstadt zu sammeln. Diese logistischen Probleme waren nicht zu bewältigen.
Heute ist das anders. Wenn wir unterstellen, dass jede Person in Deutschland im zuständigen Einwohnermeldeamt digital erfasst ist, dann hätten wir die von Ramses II gewünschten Daten sofort. Zumindest hätten wir Alter, Geschlecht, Nationalität, Geburtsort, etc. Obgleich wir guten Gewissens unterstellen können, dass nicht ALLE tatsächlich gemeldet sind, würden wir die geringe Rate an nicht-gemeldeten Personen akzeptieren. Es sei denn, wir sind an der Rate derjenigen interessiert, die auf der Straße leben. Bei uns wäre heutzutage nicht nur eine Volkszählung, sondern auch eine Volksbefragung leicht durchführbar, weil wir dazu eine „Ur-Liste“ der gemeldeten Personen erstellen und diese sukzessive abarbeiten könnten. Mit einer Volksbefragung können wir umfangreiche und sehr wertvolle Informationen gewinnen, die weit über die einer einfachen Zählung hinausgehen. Die letzte Volksbefragung war damals zwar sehr stark in Verruf geraten, aber sehr viele der gegenwärtigen amtlichen Statistiken sind nichts anderes, als eine angepasste Hochrechnung der damaligen Befragung. Diese Schätzungen werden natürlich mit jedem Jahr immer weniger verlässlich, so dass staatliche Planungen heute mehr auf Sand gründen als auf Fels. Aus diesen Gründen ist eine regelmäßige Volkszählung und – erhebung unerlässlich.
Unter Ramses II gab es weder eine Urliste noch ein digitales Meldesystem und der Großwesir Paser verfügte im gesamten Verwaltungsapparat nicht über genügend Beamte, um auch nur ein Hundertstel dieser Zählpunkte zu realisieren. Trotzdem wurde eine Lösung gefunden, denn der königliche Schreiber Ramose kam bereits damals auf eine geniale Idee, die erst Jahrtausende später wieder entdeckt wurde. Er schlug vor, dass die Beamten innerhalb von vier Wochen nur kleinere, repräsentative Bereiche der Provinzen bereisen sollten, um dadurch eine rasche Zählung zu ermöglichen. Man könne dabei zwar nicht ausschließen, dass einige Bewohner gerade unterwegs wären und dadurch entweder nicht gezählt oder doppelt gezählt werden würden. Aber unter der Annahme, dass beide Effekte gleich groß sind, könnte man sie vernachlässigen. Ramose wies weiterhin daraufhin, dass es sich um eine unvollständige Zählung handeln würde und man die Ergebnisse der so ausgezählten kleineren Stichprobe auf alle Provinzen hochrechnen müsse. Großwesir Paser erkannte sofort die Bedeutung dieses Vorschlages. Es bestand zwar eine unbekannte Unsicherheit über den Fehler bei der Hochrechnung, aber diese geschätzten Daten waren immer noch besser als keine Daten. Deshalb wies Großwesir Paser seinen Beamtenstab an, Ramoses Vorschlag umzusetzen.
An dieser Stelle müssen wir kurz innehalten und uns der Bedeutung dieses Vorschlages vollkommen bewusst werden. Wenn wir unsere Population vollständig untersuchen würden, dann würden wir definitiv wissen, wie viele es sind, und möglicherweise auch, welche Eigenschaften die Personen auszeichnen. Wenn wir zum Beispiel wissen wollten, wie viele Frauen im Alter von 25 Jahren in der Europäischen Union an einer Blinddarmentzündung operiert wurden, dann müssten wir alle Frauen der EU in ihrem 25. Lebensjahr aufsuchen und befragen, ob sie operiert wurden. Dann hätten wir eine eindeutige Angabe, die möglicherweise bei 8,9 Prozent liegt. Diese Häufigkeit von 8,9 Prozent wäre dann eine unbestreitbare Tatsache und wir würden diesen Wert als Resultat einer beschreibenden (deskriptiven) Statistik angeben. Wenn wir dagegen eine solche Befragung für nicht durchführbar halten und stattdessen eine repräsentative Stichprobe ziehen, dann kennen wir nur die Häufigkeit der Stichprobe. Diese ist uns gewiss. Aber wir wollen eigentlich die Häufigkeit der gesamten Population wissen. Dazu werden die Daten aus der Stichprobe herangezogen und die gesamte Häufigkeit wird aus diesen Daten gefolgert bzw. geschätzt. Das Resultat dieser Schätzung ist eine Häufigkeit, die unsicher ist. Deshalb wird zusätzlich ein Vertrauensbereich angegeben, indem sich die „wahre“ Häufigkeit wahrscheinlich befindet. Die „korrekte“ Folgerung von der Stichprobe auf die Gesamtheit zu ermöglichen, ist die Aufgabe der „induktiven“ Statistik.
Das erste Problem der induktiven Statistik ist, sicher zu stellen, dass die Stichprobe tatsächlich repräsentativ ist. Großwesir Paser erkannte das sofort. Sein unerfahrener Beraterstab schlug vor, in zwei Provinzen Vollerhebungen vorzunehmen und das Ergebnis mit Neun zu multiplizieren. Dieses Vorgehen hätte zwangsläufig zu massiven Fehlbewertungen geführt. Ägyptens Provinzen waren entweder sehr reich, wenn sie zum Nildelta gehören, oder relativ arm, wenn sie in der Wüste lagen. In den ersten Provinzen bestand eine sehr hohe Bevölkerungsdichte und in den zweiten eine extrem geringe. Würde man die ersten als Stichprobe nehmen und hochrechnen, würde man die Bevölkerungszahl deutlich überschätzen, und im zweiten Fall würde man sie sehr stark unterschätzen. Großwesir Paser wählte mit seinen Beamten aus allen 18 Provinzen jeweils vier kleinere Abschnitte aus, die sie als repräsentativ für die jeweilige Provinz ansahen. Die gezielte Auswahl einer Stichprobe war die Lösung vom Großwesir, die erst am Ende des 19. Jahrhunderts erneut in Betracht gezogen wurde. Bis dahin waren Vollerhebungen die Regel, weil die Mathematiker noch keine geeigneten verlässlichen Modelle entwickelt hatten, um die Unsicherheit in der Hochrechnung einzugrenzen. Nachdem dann die Vollerhebungen langsam durch Stichproben ersetzt wurden, diskutierten die Spezialisten, ob die Stichproben sorgfältig ausgewählt werden sollten, wie es der Großwesir empfohlen hatte, oder ob sie durch zufällige Zuordnung festzulegen sind. Erst nach einigen Jahrzehnten setzte sich die Erkenntnis durch, dass zufällige Zuordnungen die geringsten Verzerrungen verursachen. Geplante und sorgfältig ausgesuchte Stichproben können nur dann wirklich repräsentativ sein, wenn alle Einflussgrößen bekannt sind und berücksichtigt wurden. Da diese Kenntnisse aber fast immer fehlen, bevorzugen wir heute eine zufällige Zuordnung, und hoffen dabei, dass der Zufall alle Einflussgrößen gleich gut verteilt.
Heute wird niemand mehr auf die Idee kommen, eine vollständige Population zu untersuchen. Wir haben gelernt, eine repräsentative Stichprobe aus der Grundgesamtheit zu ziehen und diese zu untersuchen. Uns ist dabei bewusst, dass die Ergebnisse der Stichprobe nur dann auf die Grundgesamtheit übertragbar sind, wenn es sich tatsächlich um eine repräsentative Stichprobe handelt. Wenn wir hier einen Fehler in der Auswahl begehen, dann ist die Studie umsonst, weil die Ergebnisse nicht wirklich übertragbar sind. Jede Übertragbarkeit der Daten geht immer mit einer Unsicherheit einher. Wir können uns nicht sicher sein, dass die Grundgesamtheit tatsächlich exakt dieselben Eigenschaften aufweist wie eine kleine Stichprobe. Geringe Abweichungen würden wir als völlig normal akzeptieren.
Werfen wir nun noch einen Blick auf die seltsame Apparatur, die an der Wand steht. Sie besteht aus zwei Holzstäben, auf denen jeweils eine andere Skala eingraviert worden war. Auf dem oberen Holzstab sind Zahlen von Zehn bis Hunderttausend und auf dem unteren von 32 bis 0,3 angegeben. Mit einem Bindfaden werden beide Stäbe verknüpft. Was könnte damit gemeint sein? Der altägyptischen Sprache unkundig freuen wir uns auf die beigefügte Übersetzung: „Mit dieser Apparatur kann die Unsicherheit der Schätzung in Abhängigkeit von der Anzahl der untersuchten Ereignisse berechnet werden.“ Offensichtlich war es damals den Mathematikern gelungen, die Unsicherheit irgendwie abzuschätzen. Die Mathematiker hatten festgestellt, dass die Unsicherheit immer kleiner wird, je mehr Personen untersucht wurden. Und zwar sinkt die Unsicherheit mit der Quadratzahl der Beobachtungen. Als geeignete Formel wählten die Ägypter 1/√n. Auf der oberen Skala konnten die Anzahl der Beobachtungen eingestellt und auf der unteren die Unsicherheit direkt abgelesen werden. Heute wissen wir, dass diese Formel nicht ganz korrekt ist. Sie eignet sich aber hervorragend als Faustformel, um sich rasch eine Übersicht über die Unsicherheit der Angaben zu verschaffen (Tab. 8-1).
Üben wir das an einem einfachen Beispiel. Nehmen wir an, wir wollen wissen, wie viel Prozent der Bevölkerung für eine Erhöhung der Mineralölsteuer ist. Wir unterstellen, dass wir die Umfrage unter idealen Bedingungen vornehmen und immer eine repräsentative Stichprobe ausgewählt haben. Jetzt befragen wir zum Beispiel zehn Personen und sechs stimmen mit „Ja“, dann schließen wir auf 60 Prozent positiver Stimmen. Können wir jetzt an die Öffentlichkeit treten und behaupten, dass 60 Prozent der Bundesbürger für eine Erhöhung der Steuer sind? Wohl kaum. Diese kleine Studie wäre mit einer zu großen Unsicherheit verknüpft. Jetzt wiederholen wir die Studie und befragen 100 Personen. Dieses Mal stimmen 60 mit „Ja“. Sollen wir jetzt das repräsentative Ergebnis veröffentlichen? Hindert uns die weiterhin bestehende Unsicherheit für 80 Millionen Einwohner zu sprechen? Wie hoch ist die Unsicherheit bzw. die Schwankungsbreite überhaupt? Wir können sie jetzt mit der altägyptischen Faustformel 1/√n einschätzen. Bei zehn Personen wäre die Unsicherheit 1/√10=0,32. Bei einer Umfrage von zehn Personen könnten wir also höchstens behaupten, dass 60±32 Prozent dafür sind. Nachdem wir 100 Personen befragt hatten, beträgt die Unsicherheit nur noch 1/√100=0,1. Wir könnten dann sagen, dass 60±10 Prozent in der Bevölkerung dafür wären. Hätten wir 1000 Personen untersucht, dann würde sich die Unsicherheit auf drei Prozent reduzieren, denn 1/√1000=0,032. Mit einer Befragung von 1000 Personen könnten wir ziemlich sicher auf jede Grundgesamtheit schließen – vorausgesetzt die Stichprobe ist repräsentativ und wir begnügen uns mit einer Unsicherheit von drei Prozent. Wer noch mehr Sicherheit wünscht, muss mehr Ressourcen einsetzen.
Diese Zahlen mögen einige verblüffen. Wir können demnach relativ verlässliche Ergebnisse erzielen, wenn wir nur 1000 Menschen befragen. Eine Unsicherheit von 3% wäre in den meisten praktischen Situationen durchaus tolerabel. Wir müssten nur sicherstellen, dass die Stichprobe repräsentativ ist.
Wie gut wir heute auf die Grundgesamtheit schließen können, wird uns an jedem Wahlabend demonstriert. Pünktlich um sechs Uhr werden Hochrechnungen über den Wahlausgang publiziert, die nur noch sehr gering vom Endresultat abweichen. Diese Genauigkeit ist das Resultat wiederholter Modellierung von Simulationen und Anpassungen, um repräsentative Stichproben zu erhalten. Aber auch diese Modelle können versagen. Wenn sehr viele Personen ihre politische Ausrichtung drastisch ändern, stimmen die Vorhersageinstrumente nicht mehr und die Abweichungen werden größer.
Wir haben uns bisher mit drei Aspekten beschäftigt: der Bestimmung der Grundgesamtheit, der erforderlichen repräsentativen Auswahl der Stichprobe und der Übertragung der Studienergebnisse auf die Grundgesamtheit. Wir wissen, wie problematisch es werden kann, die Population nicht genau zu beschreiben. Wir wissen, wie schädlich eine falsche Auswahl der Stichprobe ist. Wir wissen, wie ungenau die Übertragung der Studienergebnisse auf die Gesamtpopulation sein kann.