Merkmale und Eigenschaften
3. Merkmale und Eigenschaften
Wir beginnen mit etwas ganz Einfachem. Wir betrachten Eigenschaften oder Merkmale von Gegenständen. Was würden wir denken, wenn wir von 0,5 l Milch oder 22,7 Katzen sprechen würden? Im ersten Fall wäre es einfach eine Packung Milch, die es in verschiedenen Größen gibt. Milch lässt sich offenbar in verschiedene Mengen abfüllen. Eine Katze ist dagegen eine Katze, wenn sie noch leben sollte. Katzen lassen sich zwar zählen, aber immer nur als Ganzes. Die Rede von 22,7 Katzen ist auf den ersten Blick unverständlich. Es sei denn man versteht sie als statistische Größe im Sinne von „im Durchschnitt besitzen 1000 Einwohner in unserer Stadt 22,7 Katzen“. Niemand würde aber ernsthaft versuchen, die 0,7 Katzen zu suchen oder zu hinterfragen, welche Teile bei der Katze fehlen. Egal, um welche Gegenstände es sich handelt, wir müssen sorgfältig unterscheiden, ob wir die Gegenstände nur als Ganzes zählen oder in beliebige Mengen einteilen können.
Beginnen wir mit einer kleinen Studie. Wir wollen die Haarfarbe der nächsten zehn Menschen in unserer Umgebung bestimmen und teilen sie zunächst in drei Farben ein: schwarz, brünett und blond. Die erste Schwierigkeit, auf die wir dabei treffen, ist die eindeutige Zuordnung jeder einzelnen Person zu einer dieser drei Haarfarben. Es wird nämlich Haarfarben geben, die wir genau zwischen zwei Gruppen einordnen würden, so dass wir uns nicht so richtig entscheiden können, welcher Gruppe wir sie zuordnen sollen.
Es könnte auch sein, dass die Haarfarben der zehn Personen so verschieden sind, dass wir sie nicht sinnvoll in drei Gruppen einteilen können. Wir könnten uns deshalb darauf verständigen, dass wir die zehn Menschen jeweils einer eigenen Gruppe zuordnen, um allen Unterschieden gerecht zu werden. Wir hätten dann zehn Gruppen mit jeweils einer Person und könnten so zehn Haartönungen definieren, welche wir wiederum nach Helligkeit und Farbe ordnen. Allerdings hätten wir dadurch keine Vereinfachung erreicht. Wir hätten lediglich der Vielfalt Genüge getan.
Führen wir nun denselben Versuch bei den nächsten 100 Personen in unserem Umfeld durch und versuchen wir uns jetzt an die zehn vorherigen Gruppierungen zu halten. Natürlich wird sich bei so vielen Personen die Vielfalt der Haarfarben erweitert haben. Vielleicht bemerken wir zufällig mehr rötliche Töne in einer Untergruppe von jüngeren Menschen, so dass wir uns genötigt sehen, fünf neue Haartöne einführen. Wir verfügen dann über 15 Farben bzw. Haartönungen.
Jemand könnte uns nun darauf hinweisen, dass wir noch zwischen natürlicher und gefärbter Haarfarbe unterscheiden sollten. Da uns aber nur das gegenwärtige Erscheinungsbild interessiert und nicht die angeborene Haarfarbe, belassen wir es bei der tatsächlichen Haarfarbe. Wir berücksichtigen auch keine andersfarbigen Haarsträhnen o.ä. und beziehen uns nur auf den überwiegenden Farbeindruck. Wenn wir tatsächlich alle Details berücksichtigen wollten, dann würden wir im Extremfall wieder bei 100 unterschiedlichen Beschreibungen enden. Wir hätten dann nichts gewonnen.
Als wir mit unserer Aufgabe begannen, klang sie relativ leicht. Was sollte daran so schwierig sein, die Personen in unserer Umgebung nach ihrer Haarfarbe in verschiedene Gruppen einzuteilen? Im Laufe des Versuchs traten dann Probleme auf, wie sie in jeder Studie in unterschiedlicher Intensität auftreten. Wir sollten deshalb bei allen Studien darauf achten, durch welche begrifflichen Bestimmungen Gruppen gebildet werden.
Bei unserer Einteilung der Haarfarben schwanken wir zwischen zwei Extremen. Wir wollen einerseits eine möglichst genaue individuelle Haarbeschreibung berücksichtigen und andererseits Individuen mit ähnlicher Haarfarbe zusammenfassen bzw. klassifizieren. Wenn wir aber mehrere Individuen in einer Gruppe zusammenführen, dann müssen wir zwangsläufig auf einige individuelle Details verzichten und diese differenzierten Informationen gehen dabei verloren. Wenn wir mehrere Personen in einer Gruppe mit ähnlicher Haarfarbe zusammenfassen, dann setzt das voraus, dass sich die Farben tatsächlich ähneln. Wie ähnlich sie sein müssen, um ähnlich zu sein, werden wir festlegen müssen, damit die Einteilung reproduzierbar ist und verschiedene Personen auch zu derselben Einteilung gelangen – natürlich mit einer gewissen Schwankungsbreite. Es ist uns aber bewusst, dass es immer Grenzfälle geben wird, bei denen es schwerfällt, Individuen einer Gruppe zuzuordnen.
Warum wollen wir Individuen überhaupt zu Klassen oder Gruppen zusammenfassen? Warum erfassen wir nicht so viel Individualität wie möglich? Weil wir dann keine Übersicht mehr gewinnen könnten. Um komplexe Daten oder große Datenansammlungen übersichtlich und informativ zusammenzufassen, benötigen wir klassifizierende Begriffe und ein spezielles Instrumentarium. Das mag auf den ersten Blick schwierig erscheinen – ist es aber nicht, oder zumindest nicht immer. Nehmen wir zum Beispiel an, wir hätten 1000mal einen Euro geworfen. Alle Würfe könnten wir sinnvoll zusammenfassen, indem wir sagen, dass wir 532mal Kopf geworfen haben. Hätten wir damit alle Informationen über die 1000 Würfe erfasst? Nein, natürlich nicht. Es entgeht uns erstens der gesamte Spaß, den wir dabei gehabt hätten, und wir wüssten auch nicht die genaue Reihenfolge der Zahl-/Kopfwürfe. Es hätten zum Beispiel einige Serien von vielen Kopfwürfen geben können, dessen Auftreten sehr unwahrscheinlich gewesen wäre. Wenn wir an diesen Serien interessiert gewesen wären, dann hätten wir uns die Ergebnisse im Detail ansehen müssen. Wenn wir aber nur wissen wollten, wie häufig Kopf geworfen wurde, reicht die Zusammenfassung aus.
3.1 Unterscheidungskriterien
Ein Verlust von Information entsteht immer dann, wenn wir Ergebnisse zusammenfassen und durch neue Werte ersetzen. Wir müssen vorab entscheiden, ob wir an den einzelnen Werten interessiert sind oder ob uns die Zusammenfassung ausreicht. Und wenn sie uns ausreicht, dann können wir auf die Techniken der deskriptiven (beschreibenden) Statistik zurückgreifen, um auch aussagekräftige und sinnvolle Zusammenfassungen zu kreieren. Letztlich legen unsere Ziele und Interessen fest, welche Art der Zusammenfassung für uns geeignet ist. Dazu können wir ein grobes oder ein feines Raster wählen.
Wir haben in dem obigen Beispiel unterstellt, dass wir uns darauf geeinigt haben, wie wir die unterschiedlichen Haarfarben auswählen. Auch hier mag es Grenzfälle geben, so dass es uns schwerfallen wird, eine Farbe eindeutig und für alle nachvollziehbar zuzuordnen. Häufig verwenden wir in anderen Zusammenstellungen Begriffe wie „klein“ und „groß“, „jung“ und „alt“ oder „hoch“ und „niedrig“, die durch klare Definitionen eingeführt werden müssen, um verständlich zu sein. Eine kleine Maus und ein kleiner Elefant unterscheiden sich maßgeblich voneinander, obwohl sie beide klein sind. Was „jung“ oder „alt“ ist, wird von einem 18jährigen sicherlich anders gesehen als von einem 60jährigen.
Wie sieht es bei komplexen Begriffen wie „Arbeitsloser“ aus? Wann gilt jemand als arbeitslos? Es handelt sich hier um eine moderne soziale Definition, denn Arbeitslose hat es vor einigen Jahrhunderten noch nicht gegeben. Auch in kommunistischen Systemen waren sie nicht existent. Wenn in den Medien über die Zahl der Arbeitslosen berichtet wird, dann sollten wir doch wissen, wer damit gemeint ist. Erinnern wir uns an die Zahlenspiele, die durch die neue Definition der Arbeitslosigkeit seit der Hartz-IV-Reform ausgelöst wurden. Aus annähernd drei Millionen Arbeitslosen wurden über Nacht plötzlich fast fünf Millionen. Solche Begriffe wie „Arbeitslose“ werden heute leichtfertig in den Mund genommen, aber wir sollten auf den korrekten Gebrauch achten. Gegenwärtig definiert das Sozialgesetzbuch III §16: „Arbeitslose sind Personen, die wie beim Anspruch auf Arbeitslosengeld 1. vorübergehend nicht in einem Beschäftigungsverhältnis stehen, 2. eine versicherungspflichtige Beschäftigung suchen und dabei den Vermittlungsbemühungen der Agentur für Arbeit zur Verfügung stehen und 3. sich bei der Agentur für Arbeit arbeitslos gemeldet haben.“ Und wenn uns jemand mitteilt, dass sich die Zahl deutlich erhöht oder erniedrigt habe, dann sollten wir weder jubeln noch verzagen, sondern zunächst nach einer ganz trivialen Änderung in der Begrifflichkeit suchen.
Ein ebenso wichtiges Problem kann auftreten, wenn ein offizielles Klassifikationssystem existiert, an das sich alle halten, und wenn dieses System modifiziert bzw. verbessert wird. Wenn sich die Definition des Arbeitslosen ändert, dann können wir die Zahlen vor und nach der Änderung nicht mehr sinnvoll miteinander vergleichen. In der Medizin werden zum Beispiel die bösartigen Tumoren nach einem komplexen System eingeteilt, dass regelmäßig verbessert wird. Manchmal werden die Einteilungen einzelner Tumore grundlegend neu festgelegt, so dass die beiden Klassifikationen nicht mehr direkt miteinander vergleichbar sind. Die Ergebnisse vor und nach der Änderung können dann nicht mehr miteinander kombiniert werden.
3.2 Häufigkeiten
Welche Möglichkeiten haben wir, die Ergebnisse unserer Haarstudie zu präsentieren?
Wie können wir anderen Personen mitteilen, welche Haarfarben wir bei den 100 untersuchten Personen gefunden haben? Wir könnten die Haarfarben nach einer Tönung sortieren und dann eine vollständige Liste aller Personen aufstellen. Übersichtlich ist das aber nicht, so dass wir deshalb die 15 Tönungen eingeführt haben. Wir könnten jetzt in einer Tabelle alle 15 Tönungen auflisten und die Häufigkeit für jede Tönung angeben. Aber seien wir ehrlich. Auch das ist noch zu unübersichtlich. Eine Zusammenfassung auf sechs Haarfarben würde wahrscheinlich ausreichen. Das könnten wir dann übersichtlich darstellen.
Wenn wir die Häufigkeiten von qualitativen Merkmalen übersichtlich zusammenstellen wollen, dann verwenden wir in der Regel Tabellen oder Diagramme. Was wir besonders häufig im Fernsehen sehen, sind Balkendiagramme, die zum Beispiel Ergebnisse von Umfragen übersichtlich darstellen. Ob die Balkendiagramme senkrecht oder waagerecht präsentiert werden, ist reine Geschmackssache. Erinnern wir uns an die Wahl des Bundespräsidenten im Jahr 2010, nachdem Horst Köhler so überraschend zurückgetreten war. Es bedurfte damals dreier Wahlgänge bis Christian Wulff die erforderliche Mehrheit erhielt, was für die Regierungskoalition ziemlich peinlich war. Die Mitglieder der Bundesversammlung wurden damals direkt nach der Wahl des neuen Bundespräsidenten befragt, ob der Einstieg in das neue Amt trotz des dritten Wahlgangs als gut zu bewerten ist und ob der neue Bundespräsident als geeignet angesehen wird. Im Fernsehen wurde die Umfrage präsentiert. Der Moderator wies auf das Balkendiagramm (Abb. 3-1) und sagte, dass immerhin 67 Prozent den Einstieg als gut bezeichneten und 73 Prozent den Bundespräsidenten für geeignet hielten, – selbst „Die Grünen“ und die SPD.
Was können wir dem Balkendiagramm wirklich entnehmen? Eigentlich nichts, weil die beiden wichtigsten Angaben fehlen. Es wurde weder gesagt, wie viele Personen befragt wurden, noch, ob es sich um eine repräsentative Stichprobe der Bundesversammlung handelte. Die abgebildeten Ergebnisse wären zum Beispiel sehr gut mit der bösartigen Vermutung vereinbar, dass die erste Frage nur drei Personen gestellt worden war und zwei mit „ja“ geantwortet haben, was 66,6 Prozent Ja-Stimmen ergeben hätte.
Die zweite Frage hätte immerhin 11 Personen gestellt worden sein können. Darunter drei Personen der Partei „Die Linke“, die mit „Nein“ stimmten, so dass am Ende nur 8/11 zugestimmt haben. Die acht Ja-Stimmen waren 6mal CDU, 1mal SPD und 1mal „Die Grünen“. Jeder wird sofort erkennen, dass bei dieser Unterstellung die Aussagekraft der Umfrage völlig nichtssagend ist, wenn nicht sogar irreführend.
Wir sollten solche Balkengraphiken besser ignorieren, um ihnen nicht auf den Leim zu gehen. Seriöse Umfragen sind sehr komplex und nur aussagekräftig bei ausreichender Fallzahl, repräsentativer Population und geeigneten Fragen. Sich einfach in eine Halle zu begeben und mal eben ein paar Menschen zu befragen und danach ein hübsches Diagramm anzufertigen, mag fürs Fernsehen reichen. Eine ernsthafte Umfrage sieht anders aus.
Balken- oder Kreisdiagramme werden gern verwendet, um uns einfache Informationen zu vermitteln. Und deshalb sind sie optimal dazu geeignet, andere Personen in die Irre zu führen.
Unsere Kritik bedeutet natürlich nicht, dass wir Umfragen grundsätzlich nicht vertrauen sollten, sondern nur, dass Umfragen in der Halle eines Krankenhauses oder auf dem Marktplatz während einer politischen Demonstration hochgradig anfällig sind für Missverständnisse. Wer als Krankenhausbetreiber wissen will, warum Patienten sein Krankenhaus meiden, sollte die Umfrage nicht im eigenen Krankenhaus durchführen. Wer wissen will, welche Meinung die Bevölkerung zu einer drängenden politischen Frage einnimmt, sollte nicht nur Personen auf einer politischen Demonstration befragen.
Äußerst vorbildlich und professionell sind die Umfragen von Infratest. Auf deren Webseite „www.inftratest.de“ kann man sich über die verwendeten Techniken von Umfragen eingehend informieren.
Wenn wir Gegenstände oder Ereignisse in Klassen einteilen, dann können wir die Ergebnisse übersichtlich in Tabellen darstellen. Nehmen wir an, dass wir 200 Bälle und 600 Würfel nach der Farbe sortierten. Das Ergebnis ist in Tabelle 3-1 zusammengefasst. Hier fällt uns nicht direkt auf, dass die Farbenhäufigkeit ähnlich ist. Wie ähnlich sie aber tatsächlich ist, wird deutlich, wenn wir die Farbhäufigkeiten in Prozenten angeben (Tab. 3-2). Erst die Umrechnung in relative Häufigkeiten, in Prozente, gibt uns ein Gefühl für die Verteilung der Farben. Wenn wir unübersichtliche absolute Zahlen anschauen, dann könnten uns wichtige Zusammenhänge entgehen.
Deshalb ist ein Blick auf die Verhältnisse der einzelnen Gruppen zueinander wertvoll. Dazu eignen sich die relativen Häufigkeiten besonders gut. Im Alltag sollten wir immer genau aufpassen, ob die tatsächlichen realen Häufigkeiten bzw. die absoluten Zahlen genannt werden, oder ob es die relativen Häufigkeiten (meistens in Prozenten) sind.
Wenn wir Häufigkeiten angeben, dann sollten die Begriffe auch so gewählt werden, dass sie tatsächlich alle Gegenstände umfassen. Betrachten wir dazu noch einmal unsere Bälle und Würfel. Es gab noch zwei weiße Bälle, einen gelben Ball und einen schwarzen Würfel, die in der Tabelle nicht aufgeführt wurden, weil sie keine gemeinsamen Farben waren. Wir hätten dieses Problem erkennen können, weil in der Tabelle die Gesamtzahl angeführt ist, die nicht 200 bzw. 600 beträgt. Die Tabelle ist genau genommen unvollständig. Die fehlenden Daten fallen aber nicht ins Gewicht, so dass ihre Unterschlagung nicht auffällt und auch den Gesamteindruck nicht verfälscht.
Es gibt aber auch Situationen, wo fehlende Werte (missing values) sehr wichtig sein können. So könnte uns jemand bitten, die Haarfarbe von 50 Männern in einem Ringerclub zu notieren. Wir teilen die Haarfarbe vor der Untersuchung in vier Gruppen ein, fügen aber eine fünfte Gruppe bei der Untersuchung hinzu, weil sich herausstellt, dass die Mehrheit der Ringer (n=31) glatzköpfig ist. Natürlich hätten wir diese Information auch weglassen können und hätten die 19 Haarfarben tabellarisch darstellen können. Wir hätten dann eine Aussage über eine Minderheit präsentiert und der Auftraggeber wäre vielleicht getäuscht worden, weil er vielleicht wissen wollte, welche Haartönungsmittel er dort hätte verkaufen können. Je nach der Fragestellung sollte unbedingt darauf geachtet werden, dass auch alle Objekte erfasst werden, die von Interesse sind.
3.3 Diagramme
Die einfachsten intellektuellen Anforderungen werden scheinbar an uns gestellt, wenn wir direkt mit Diagrammen konfrontiert werden. Um die Daten eindrucksvoller wirken zu lassen, werden sie in der Regel speziell aufbereitet. Dadurch können die wesentlichen Informationen hervorgehoben werden, um sie uns besser ins Bewusstsein zu rücken. Die besonderen Eigenschaften der Informationen, die in einer Tabelle nicht auf den ersten Blick sichtbar werden, können in einer geeigneten graphischen Darstellung gezielter abgebildet werden. Eine Graphik ist auch sehr gut dazu geeignet, um Zusammenhänge oder Zeitverläufe abzubilden. Vielfach werden die Graphiken so konstruiert, dass die Ergebnisse offensichtlich erscheinen und die Schlussfolgerung rasch gezogen werden können. Eine Graphik sollte deshalb sehr sorgfältig gewählt und angefertigt werden, damit sie ihren Zweck erfüllt.
Unsere Welt ist geprägt von schnellem Essen und schnellen Informationen. Die meisten Informationen sind schnelllebig, so dass sie rasch präsentiert werden müssen, bevor ihre Halbwertszeit vorüber ist. Außerdem wollen die meisten Menschen keine genauen Übersichten, sondern nur die Schlagzeile. Der schnelle Blick auf eine Graphik mit den suggerierenden Worten „es hat in dem untersuchten Zeitraum eine deutliche Steigerung ergeben“ lässt uns daran nicht zweifeln. Wenn wir einen kurzen Blick auf die Graphik (Abb. 3-2) werfen, dann sind wir von der obigen Aussage überzeugt. Eine sorgfältig berechnete Trendkurve im Diagramm würde den suggestiven Effekt noch verstärken.
Dieser beeindruckende Anstieg wird aber nur durch eine Vergrößerung der Skala hervorgerufen, die nicht bei Null beginnt, sondern bei 190. Wenn wir die Graphik bei Null beginnen lassen (Abb. 3-3), erscheint der deutliche Anstieg der obigen Graphik allenfalls als geringer Anstieg, dem wahrscheinlich keine praktische Bedeutung zukommt.
Wir sollten in Zukunft in Zeitschriften oder anderen Medien immer auf die Skala achten, um zu überprüfen, ob jemand einen Effekt verstärken oder abschwächen möchte? Wir sollten nicht vergessen, dass man uns mit solchen Graphiken eine bestimmte Information mitteilen möchte. Egal, ob sie richtig ist oder nicht. Wir sollten uns von solchen Graphiken nicht blenden lassen. Wir sollten ihnen gegenüber genauso skeptisch sein wie gegenüber Werbungen. Erst wenn wir uns davon überzeugt haben, dass die Daten adäquat dargestellt wurden, sollten wir uns mit der dargebotenen Information sachlich auseinandersetzen.
Natürlich wirkt derselbe Trick auch andersherum. Wenn wir nahe legen wollen, dass es keinen Unterschied im Verlauf gibt, dann dehnen wir die Skala solange, bis die Unterschiede verschwinden.
Bei jeder graphischen Darstellung gleiten wir zwischen Skylla und Charybdis: Auf der einen Seite benötigen wir die Zusammenfassung von Daten, die uns auf einen Blick eine bestimmte Schlagzeile vermittelt. Aber auf der anderen Seite wollen wir auch nicht hinters Licht geführt werden. Wir wollen eine Graphik präsentiert bekommen, die adäquat ist, die uns das richtige Bild vermittelt, die die tatsächlichen Sachverhalte verständlich abbildet und die ihren Zweck erfüllt. Was aber in einer Situation als adäquat betrachtet werden kann und welches Ziel erreicht werden soll, hängt vom Kontext ab und wird häufig verschwiegen.
3.4 Prozente
Ein intellektuelles Minenfeld ist die Angabe von Prozenten, die wir bereits so wohlwollend empfohlen haben. Wir sollten niemals, niemals vergessen: Prozentangaben sind häufig hilfreich, aber sie können uns in die Irre führen.
Wenn wir Prozentangaben lesen, müssen wir herauszubekommen, welches die Bezugspopulation ist. Prozente sind nur Anteile von Etwas und deshalb können wir sie nur interpretieren, wenn wir wissen, wovon sie Anteile sind. Wichtig: Zu allen Prozentangaben gehört die Bezugsgruppe.
Einige einfache Beispiele werden den problematischen Umgang mit Prozenten schnell ans Licht bringen. Nehmen wir einmal an, die Polizei veröffentlicht die Schlagzeile, dass die Rate an Einbrüchen in einem Berliner Bezirk im letzten Jahr um zehn Prozent zurückgegangen ist. Ist das tatsächlich ein Erfolg der Polizei? Um das beurteilen zu können, müssten wir die Grundgesamtheit kennen, auf die sich die Prozentangabe bezieht. Wenn die Einbrüche von 1000 pro Jahr auf 900 gesenkt werden konnten, ist das sicherlich beeindruckender, als wenn die Einbrüche von zehn auf neun reduziert wurden. Die Aussagekraft einer 10prozentigen Verminderung ohne Kenntnis der Grundgesamtheit ist gering. Einfacher wäre es gewesen, gleich zu sagen, dass sich die Einbrüche von 1000 auf 900 vermindert haben. Dann hätten wir uns die Rückfrage ersparen können.
Ärzte sind Fetischisten von Prozentzahlen. Sie drücken fast alles in Prozenten aus, weil Prozentangaben angeblich einfacher und verständlicher sind als die eigentlichen absoluten Zahlen. Wir lesen zum Beispiel in der medizinischen Fachliteratur, dass die Rückfallrate nach einer Operation sechs Prozent beträgt oder dass nach einer medikamentösen Behandlung der Bluthochdruck bei 80 Prozent der Patienten um 20 Prozent vermindert werden konnte. Diese Prozentangaben sind für alle Leser sehr gut verständlich, so dass alle Beteiligten die Situation rasch überblicken. Soweit so gut. Jetzt kommt der Fetisch. Ärzte sprechen nicht nur über Prozente, sondern sie sprechen auch über die Prozente der Prozente.
Nehmen wir zum Beispiel an, dass wir bei acht Prozent aller Personen erhöhte Blutfette nachweisen können, die behandlungsbedürftig sind. Wir verschreiben den Patienten fettsenkende Medikamente und stellen nach sechs Monaten fest, dass sich die Rate von acht Prozent auf sechs Prozent vermindert hat. Das ist eine Abnahme von zwei Prozent. Wenn wir also 1000 Patienten untersuchen, bei 80 davon erhöhte Blutfette feststellen und diese behandeln, dann sind es nach sechs Monaten nur noch 60 Patienten. Eigentlich ist bis hierher alles einfach und unkompliziert. Nur klingt eine Abnahme von zwei Prozent bzw. 20 Patienten unbedeutend.
Wenn wir jetzt den Blick nur auf die 80 Patienten werfen, die erhöhte Blutfette aufwiesen, dann können wir neue Prozentzahlen berechnen. Wenn 80 Patienten als 100 Prozent angesehen werden, dann sind 60 Patienten 75 Prozent davon. Wir können jetzt freudig mitteilen, dass wir durch unsere Behandlung eine Verminderung von 25 Prozent erreicht haben. Das klingt doch schon ganz anders, oder? Zwei Prozent oder 25 Prozent? Welche Zahlen würden wir wohl auswählen, wenn wir für das fettsenkende Medikament werben müssten. 25 Prozent klingen da schon richtig spektakulär. Was lernen wir aus diesen Prozentangaben? Wir sollten in Zukunft genau beachten, worauf sich die Prozentzahlen beziehen, wenn uns Unterschiede beschrieben werden.
Solche vergleichenden Informationen über eine Zunahme oder Abnahme finden wir in fast allen Werbungen, weil jemand ein „besseres“ Produkt anbietet, das sich „deutlich“ von anderen Produkten unterscheidet. In der Medizin wird zum Beispiel ein neues Nahtmaterial angeboten, das zwar deutlich teurer ist als das bisherige, aber das zugleich die entzündlichen Komplikationen um 50 Prozent vermindern soll. Das neue Nahtmaterial halbiert quasi die Komplikationen, was als entscheidender Durchbruch propagiert wird. Eine Halbierung der Komplikationen ist sicherlich wünschenswert, aber ist sie klinisch auch relevant oder kosteneffektiv? Das können wir nicht beurteilen, ohne zu wissen, wie hoch die Grundgesamtheit überhaupt ist. Wenn bei 40 Prozent der Patienten Wundheilungsstörungen auftreten würden und diese auf 20 Prozent reduziert werden könnten, dann wäre das klinisch relevant. Bei jedem fünften Patienten könnte mit dem neuen Nahtmaterial eine Infektion verhütet werden. Beträgt dagegen die gesamte Infektionsrate nur zwei Prozent, dann würde sie nur auf ein Prozent vermindert. Jetzt müssten wir 100 Patienten behandeln, um eine Infektion zu vermeiden.
Die alleinige Angabe der relativen Änderung kann sehr irreführend sein. Fairer wäre es gewesen, man hätte von vornherein die tatsächliche Prozentverminderung angegeben. Das klingt aber nicht so beeindruckend. Nehmen wir an, dass das zweite Szenario zutrifft, dann würde ein Chirurg nur kurz nicken, wenn wir über eine Reduktion der Infektion von einem Prozent sprechen würden. Bei 20 Prozent wären wir seiner Aufmerksamkeit dagegen sicher und bei 50 Prozent würde er wahrscheinlich das Nahtmaterial sofort kaufen.
3.5 Absolute und relative Risikoreduktion
Damit wir nicht bewussten Täuschungen auf den Leim gehen, sollten wir immer wissen, ob wir über eine relative oder über eine absolute Risikoreduktion reden, wenn wir mit Prozentzahlen argumentieren. Dazu ein kleines einprägendes Beispiel: Wir lesen in einem Fachartikel, dass ein neuer Plastikkatheter entwickelt wurde, der speziell beschichtet ist und dadurch die Infektionen bei den Patienten um zehn Prozent vermindert. Diese Risikoreduktion wurde in mehreren Studien nachgewiesen. Erfreut über diese Nachricht suchen wir unseren Vorgesetzten auf und berichten ihm von dieser Innovation. Auf die Frage, was der neue Katheter kosten würde, antworten wir, dass der alte Katheter 20 Euro und der neue 24 Euro kostet. Er ist somit um 20 Prozent teurer als der alte. Durch die vermiedenen Infektionen würden wir die Preisdifferenz aber locker wieder ausgleichen. Zum Beweis unserer Argumente legen wir die Fachliteratur vor, die von unserem Vorgesetzten interessiert studiert wird, bis er zu lachen anfängt. Etwas irritiert bitten wir um eine Erklärung.
Unser Vorgesetzter erklärt uns, dass wir einer Verwechselung aufgesessen sind, eben der zwischen der absoluten und relativen Risikoreduktion. Es war ihm von vornherein bewusst, dass die Anpreisung nicht stimmen konnte, weil Katheterinfektionen insgesamt sehr selten sind. Die absolute Häufigkeit von Katheterinfektionen beträgt im Durchschnitt nur zwei Prozent, so dass die von uns genannte 10%ige Reduktion nur relativ und nicht absolut sein konnte. Durch den neuen Katheter werden die Infektionen auf 1,8 Prozent gesenkt. Die absolute Verminderung beträgt somit nur 0,2 Prozent. Das sind aber relativ gesehen zehn Prozent von zwei Prozent. Wenn wir den neuen Katheter bei 1000 Patienten einführen und damit die Kosten von 20.000 Euro auf 24.000 erhöhen, dann verhüten wir zwei Infektionen. Statt der üblichen 20 Infektionen treten nur noch 18 auf.
Üben wir das mit weiteren Beispielen. Wir hatten im ersten Beispiel die Rate an Fettstoffwechselstörungen von acht Prozent auf sechs Prozent vermindert. Die absolute, tatsächliche Risikoreduktion (Absolute RR) zwischen den beiden Gruppen beträgt damit zwei Prozent. Wenn wir 100 Patienten untersuchen, dann haben nur noch sechs Patienten eine Stoffwechselstörung. Wir haben zwei geholfen. Das ist der wirkliche Effekt. Wenn wir die Reduktion aber relativ auf die acht Prozent beziehen, dann beträgt die relative Risikoreduktion (Relative RR) 25 Prozent. Zwei Prozent sind schließlich ein Viertel von acht Prozent. Wenn wir uns jetzt vorstellen, dass wir das absolute Risiko um vier Prozent vermindert hätten, von acht Prozent auf vier Prozent, dann würde das relative Risiko sogar um 50 Prozent gesenkt. Die relativen Angaben wirken demnach immer sehr viel beeindruckender als die absoluten.
Wenn wir den tatsächlichen Effekt einer Behandlung beurteilen möchten, dann müssen wir auf die absolute Differenz schauen und keinesfalls auf die relative, die uns häufig blendet. In der Tabelle 3-3 wurde die relative Risikoreduktion (RRR) für ein und dieselbe absolute Risikoreduktion (ARR) von fünf Prozent angeführt. Beträgt die Ausgangshäufigkeit 50 Prozent, dann ist die relative Risikoreduktion nur zehn Prozent. Bei einer Häufigkeit von zehn Prozent klingt die relative Risikoreduktion mit 50% schon außergewöhnlich hoch. Wie bereits mehrfach gesagt, ist der therapeutische Effekt identisch, denn die absolute Verminderung beträgt in der gesamten Tabelle nur fünf Prozent.
Im medizinischen Alltag geben wir nicht nur die absolute Differenz an, sondern wir berechnen zugleich aus der absoluten Differenz, wie viele Patienten wir behandeln müssten, um einem Patienten zu nutzen (number needed to treat = NNT). Wenn wir zum Beispiel die Wundheilungsstörungen absolut um fünf Prozent vermindern können, dann benötigen wir 20 Patienten, um einem zu helfen. Die NNT lassen sich einfach berechnen durch: 1/absolute RR. In unserem Fall: 1/0,05=20. Um ein Gefühl für die NNT bei verschiedenen Risikoverminderungen zu erhalten, wurden einige in Tabelle 3-4 aufgeführt. Sehr große Therapieeffekte sind im medizinischen Alltag selten, so dass häufig sehr viele Patienten behandelt werden müssen, um ein unerwünschtes Ereignis abzuwenden. Aber Achtung: bei der Berechnung der NNT benötigen wir die absolute Differenz!!
Warum ist die NNT für die Ärzte so wichtig? Wenn wir eine sehr aggressive Therapie mit vielen Nebenwirkungen betrachten, dann würden wir sie kaum bei einer NNT von 200 einführen. Wir würden uns bei schweren Nebenwirkungen eine niedrige NNT wünschen. Anders sieht es aus, wenn wir zum Beispiel ein fast nebenwirkungsfreies, gut verträgliches Medikament verordnen müssten. Hier würden wir auch NNTs von 200 akzeptieren, wenn wir einen Schlaganfall oder plötzlichen Herztod vermeiden könnten.
3.6 Rangfolgen
Wenn wir die „Wertigkeit“ unterschiedlicher Daten anordnen müssten, dann würden wir Skalen verwenden, in denen wir die Merkmale nach Rängen sortieren. Aber wie wollten wir Haarfarben ordnen bzw. skalieren? Wir könnten unsere persönliche Präferenz äußern und die Haarfarbe nach unserer Präferenz ordnen. Aber diese Anordnung ist sicherlich nicht verallgemeinerungsfähig. Andere Personen würden die Skala nach ihrem eigenen subjektiven Empfinden sehr wahrscheinlich ändern. Dasselbe gilt natürlich auch für Augenfarben, Tier- oder Pflanzenarten, wenn wir sie irgendwie einordnen wollten. Jedes Ordnungsprinzip, das wir uns ausdenken, müssen wir vor anderen rechtfertigen bzw. als plausibel, fruchtbar und konstruktiv ausweisen. Wenn uns das nicht gelingt, dann können wir solche Eigenschaften nicht als Rangfolgen, sondern nur als Häufigkeiten angeben.
Immer dann, wenn wir etwas vergleichend bewerten wollen, sortieren wir die Objekte nach bestimmten Eigenschaften, die „besser“ oder „schlechter“, „größer“ oder „kleiner„, „wasserdurchlässiger“ oder „fettdurchlässiger“ sind. Mit solchen Rangfolgen erweitern und differenzieren wir unser Spektrum der Bewertungen erheblich.
Wie wir die Rangfolgen genau bewerten, hängt dabei vom Kontext und nicht allein von der untersuchten Eigenschaft ab. Was in der einen Situation als günstig und groß angesehen wird, kann in einer anderen Situation als ungünstig und klein erscheinen. Wenn wir zum Beispiel die Körpergrößen als relevante Parameter einführen, dann ist sie bei den drei besten Basketballspielern Michael Jordan (1,98 m), Earvin „Magic“ Johnson (2,06 m) und Wilt Chamberlain (2,16 m) eindeutig größer als bei einem Fußballspieler wie Lionel Messi, der nur 1,69 m groß ist.
Mit Rangfolgen können wir auch rechnen. Wenn wir die Gegenstände gemäß einer Rangfolge anordnen, dann erhält jeder Gegenstand einen Rang und mit diesen Rängen könnten wir statistische Tests durchführen. Das heißt aber nicht, dass der Wert oder die Bedeutung vom Gegenstand an der 3. Stelle nur halb so viel bedeutet oder wert ist wie von dem an der 6. Stelle. So werden zum Beispiel bösartige Tumoren in vier verschiedene Stadien eingeteilt. Hier können wir nicht davon sprechen, dass ein Stadium 1 und Stadium 3 insgesamt ein Stadium 4 ergibt. Die Prognose des Patienten verschlechtert sich zwar mit dem fortgeschrittenen Stadium, aber eine einfache Addition ist nicht möglich.
Einen anderen Vorteil, mit Rangfolgen rechnen zu können, entnehmen wir aus Tabelle 3-5. Hier wurden numerische Werte einfach ihrem Rang nach aufgelistet. Die Ausreißer nach unten oder oben verzerren jetzt nicht mehr das Gesamtbild, so dass statistische Tests über Rangfolgen viel robuster sind als einfache Verfahren, die normalverteilte Daten unterstellen.