Vorhersagewerte und Prävalenz
Die Meisten werden sicherlich unseren Neffen bedauern, weil der Test positiv ist. Es handelt sich schließlich um einen sehr sicheren Test, der nur wenig Raum für falsche Ergebnisse zulässt, wie wir in Tabelle 20-1 sehen. Wir könnten deshalb vermuten, dass die Wahrscheinlichkeit eher 99 Prozent beträgt, dass er an Lungenkrebs leidet. Diese Vermutung ist zwar nachvollziehbar und viele Ärzte denken auch so, doch sie ist leider sehr, sehr falsch! Die Betonung auf die Falschheit der Schlussfolgerung ist von größter Bedeutung, wie wir noch sehen werden, denn nur dann, wenn dieser Irrtum umfassend aufgeklärt ist, haben wir die Wertigkeit diagnostischer Verfahren wirklich verstanden.

Tab. 20-1 Sensitivität von 99 Prozent und Spezifität von 98 Prozent
Wir werden in diesem Abschnitt versuchen, die entscheidenden Weichen zu diesem Verständnis diagnostischer Methoden zu stellen. Wenn wir die folgende Argumentation nachvollzogen haben, dann werden wir zu denjenigen zählen, die diagnostische Verfahren bewusst und sinnvoll einsetzen können. Außerdem wird uns dann auch klar werden, warum immer wieder solche grundlegend falschen Vermutungen auftreten.
Warum dieser tolle Test keine diagnostische Sicherheit bietet, wird uns deutlich, wenn wir den Korridor betrachten, von dem die beiden Türen abgingen, die mit „Sensitivität“ und „Spezifität“ beschriftet waren. Wir stellen fest, dass noch zwei weitere Räume existieren, die mit „Positiver Vorhersagewert“ und „Negativer Vorhersagewert“ gekennzeichnet sind. Diese Räume werden sich noch als sehr viel wichtiger erweisen als die anderen beiden.
Wenn wir den Raum „positiver Vorhersagewert“ betreten, dann befinden sich dort alle Patienten mit einem positiven Testergebnis – egal, ob sie krank oder gesund sind. Wenn wir die Tabelle 20-1 betrachten, dann sind das 101 Patienten. Auch hier werden wir wieder alle bitten, sich hinzusetzen. Dann fragen wir, wer denn tatsächlich krank ist. Es werden 99 aufstehen und wir wissen dann, dass der positive Vorhersagewert 99/101 ist. Dieser Wert ist sehr gut. Und weil er so gut ist, haben wir bei meinem Neffen auch vermutet, dass er an Lungenkrebs leidet. Doch warum ist diese berechtigte Vermutung dennoch falsch?
Wenn wir den Raum verlassen und in den Raum „negativer Vorhersagewert“ gehen, dann befinden sich in diesem Raum nur Menschen mit einem negativen Testergebnis. In unserem Beispiel sind es 99 Patienten, von denen sich 98 erheben, wenn wir fragen, ob sie gesund sind. Auch hier ist der Vorhersagewert sehr hoch. Was unterscheidet diese beiden neuen Räume nun von den beiden anderen Räumen? Es ist die andere Sichtweise. In den Räumen „Sensitivität“ und „Spezifität“ wussten wir, wer krank und gesund ist, und haben die Personen entsprechend ihres Zustandes in die beiden Räume aufgeteilt. In der Realität wissen wir aber nicht, ob jemand krank ist oder nicht, sondern wir kennen nur das Ergebnis unserer Untersuchung. Die Sensitivität und Spezifität eines Tests sind zwar aussagefähige Gütekriterien, aber in der realen Situation nutzen sie uns kaum etwas, denn sie unterstellen ja bereits eine klare Trennung von Kranken und Gesunden.
De facto wählen wir einen Test, um herauszufinden, woran eine Person leidet. Womit wir nach dem Test konfrontiert werden, ist das Untersuchungsergebnis, das wir interpretieren müssen. Ist es positiv, dann schauen wir auf den positiven Vorhersagewert. Ist er sehr hoch wie in der Tabelle 20-1, dann sind wir uns sicher und diagnostizieren die Krankheit oder den kranken Zustand. Ist der Test dagegen negativ, dann betrachten wir den negativen Vorhersagewert und entscheiden dann, ob der Patient gesund ist. Die Vorhersagewerte sind die eigentlichen nützlichen Werte, denn sie sagen uns, mit welcher Wahrscheinlichkeit der Patient krank oder gesund ist.
Also, leidet unser Neffe nun an Lungenkrebs oder nicht? Bisher haben wir gute Belege dafür, dass dem so ist, weil alles in der Tabelle 20-1 darauf hinweist, dass er Lungenkrebs haben muss. Auch wenn die Argumentation lückenlos und zwingend erscheint, trifft sie nicht zu. Unser Neffe hat sehr wahrscheinlich gar keinen Lungenkrebs. Wir haben nämlich bisher etwas Wichtiges versäumt, wenn wir Vorhersagewerte betrachten. Wir haben vergessen, uns die Zusammensetzung der Population genau anzuschauen. Die Zusammensetzung von Kranken und Gesunden in einer untersuchten Population spielt bekanntermaßen bei der Sensitivität und der Spezifität keine Rolle. In dem einen Raum sind die Kranken und in dem anderen die Gesunden, sie sind beide getrennt. In den Räumen der Vorhersagewerte ist dies völlig anders. Hier ist die Zusammensetzung der Population von äußerster Bedeutung und verändert die Vorhersagewerte sehr drastisch.
Um das verständlich zu machen, werden wir den tollen Test mit derselben hohen Sensitivität und Spezifität auf drei verschiedene Populationen anwenden, die sich in der Zusammensetzung von Kranken und Gesunden unterscheiden. Die Fachleute sprechen hier von der Prävalenz. Auch wir werden der Einfachheit wegen mit diesem Begriff argumentieren. Mit der Prävalenz meinen wir den Anteil der Erkrankten an einer Population oder den Anteil eines Zustandes an einer Gesamtmenge. Häufig wird die Prävalenz in Verhältniszahlen wie 1/10.000 oder 1/100.000 ausgedrückt. Beachten sollten wir, dass es ist nicht ausreicht, nur die Verhältniszahl zu nennen, sondern wir müssen zu einem vollen Verständnis der Prävalenz auch immer beschreiben, um welche genaue Population es sich handelt.
Die Prävalenz ist die entscheidende und unabdingbare Ergänzung zu den Vorhersagewerten. Wir müssen begreifen, wie sich die Vorhersagewerte ändern, wenn wir die Prävalenz modulieren. Wir werden rasch erkennen, dass eine sinnvolle Abschätzung der Vorhersagewerte ohne richtige Vermutung der Prävalenz sinnlos ist.

Tab. 20-2 Bronchialkarzinom bei einem gesunden 30jährigen Mann
Bleiben wir bei unserem fiktiven Test, mit dem wir den Lungenkrebs bei meinem Neffen vorhergesagt haben. Nehmen wir an, mein Neffe ist 30 Jahre alt, Nichtraucher, hat keine Lungenerkrankungen und ist ansonsten immer gesund gewesen. Wie hoch würden wir die Prävalenz des Lungenkrebses schätzen? Sicherlich sehr gering, weil Lungenkrebs in jungen Jahren eine Rarität ist. Wir können deshalb bei einer Population, die ihm ähnelt, einen Lungenkrebs in höchstens 1/100.000 erwarten. Es ist nämlich äußerst selten, dass bei gesunden jungen Nichtrauchern Lungenkrebs auftritt.
Um einfacher rechnen zu können, multiplizieren wir alles mit 100, so dass wir als Prävalenz 100/10.000.000 erhalten. Diese sehr große Zahl mag auf den ersten Blick unhandlich sein, aber sie spiegelt eine reale Situation wider. Wenn wir unter diesen Annahmen 10.000.100 Menschen untersuchen, dann erhalten wir die Ergebnisse in Tabelle 20-2.
Es fällt sofort auf, wo die Musik spielt. Wenn wir in dieser Population den Test vornehmen, dann werden insgesamt 200.099 Menschen als positiv getestet. Aber davon sind tatsächlich nur 99 krank. Bei einem positiven Ergebnis beträgt die Vorhersagewahrscheinlichkeit in dieser Population nur 99/200.099. Das sind grob gesagt 1/2000 und dieser Anteil ist verschwindet gering. Dieser tolle Test führt zu sehr vielen falsch-positiven Ergebnisse, die äußerst viele Personen verunsichern, ohne dass sie krank sich. Wenn wir bei unseren oberen Erläuterungen bleiben, unter diesen Bedingungen in den Raum „positiver Vorhersagewert“ gehen würden und sich dort 2000 Menschen aufhalten, dann würde nur ein einziger Kranker aufstehen –, den wir wahrscheinlich in der Menge gar nicht erkennen würden. Unser Neffe muss also nicht befürchten, dass er wirklich erkrankt ist, denn es ist viel wahrscheinlicher, dass er trotz des positiven Ergebnisses gesund ist. In einer solchen Situation sollten wir die Person nicht verunsichern, sondern wir sollten weitere Untersuchungen veranlassen, um den geringen Verdacht zu entkräften. Wie wir sehen, ist der Vorhersagewert bei einer geringen Prävalenz selbst bei dem besten Test äußerst gering.
Sehr gut sähe es bei unserer Tochter aus, die in dem Szenario negativ getestet wurde. Das Risiko eines falsch-negativen Tests betrüge bei ihr nur 1/9.800.001, was fast einem Sechser im Lotto entspräche – allerdings mit negativen Vorzeichen. Bei dem negativen Ergebnis können wir also sehr sicher sein.

Tab. 20-3 Bronchialkarzinom bei einem 60jährigen Mann
Jetzt wollen wir das Szenario ändern. Wir untersuchen 60jährige Männer und vermuten einen Lungenkrebs bei 100 pro 100.000 Einwohner, d.h. wir haben die Prävalenz auf das 100fache erhöht. Wenn wir bei 100.100 Menschen in dieser Population unseren Test anwenden, erhalten wir Tabelle 20-3. Auch hier sehen wir ein ähnliches Bild. Es sind immerhin 2099 Personen, die positiv getestet worden sind. Wir sehen 2000 falsch-positive und nur 99 richtig-positive. Der positive Vorhersagewert beträgt nur 99/2099, also rund 100/2000 oder 1/20 oder fünf Prozent. Ist jemand in dieser Population positiv getestet, dann leidet er nur in ungefähr fünf Prozent an einem Lungenkrebs. Das klingt relativ wenig, oder? Aber es ist deutlich mehr als bei unserem Neffen. Ein negatives Testergebnis ist auch hier sehr hilfreich, denn falsch-negative Ergebnisse sind mit 1/98.001 äußerst selten.

Tab. 20-4 Bronchialkarzinom bei einem 60jährigen Raucher mit Bluthusten
Wahrscheinlich ahnen bereits einige, wo die Reise hingeht. Selbst ein sehr guter Test mit einem positiven Ergebnis ist nur dann wirklich hilfreich, wenn wir ihn in einer Population anwenden, in der wir bereits eine hohe Prävalenz vermuten. Wenden wir einen Supertest auf Gesunde an, dann werden wir nichts finden, denn schließlich sind die Personen gesund. Wir produzieren aber sehr viele falsch-positive Ergebnisse und verunsichern damit sehr viele Personen. Ärzte wurden deshalb in ihrer Ausbildung dazu erzogen, in einem gründlichen Gespräch und einer „kleinen“ Untersuchung die Wahrscheinlichkeit einer Krankheit einzuschätzen, bevor sie weitere Tests veranlassen. Das „blinde“ Testen nur aufgrund eines spekulativen Verdachtes ist nicht fruchtbar, sondern sogar schädlich, weil wir viele Gesunde zu Kranken abstempeln – bevor wir sie durch weitere Tests wieder „gesund machen“.

Tab. 20-5 Bronchialkarzinom bei einem 60jährigen Raucher mit Bluthusten und Gewichtsverlust
Wir werden das Szenario ein weiteres Mal wechseln. Wir untersuchen jetzt eine Population von 60jährigen Rauchern, die mit Bluthusten zum Arzt gehen. Das Husten von Blut ist ein sicheres Zeichen dafür, dass die Lunge in irgendeiner Form erkrankt ist. Es kann ein Tumor sein oder verschiedene Entzündungen. Aufgrund des Bluthustens vermuten wir ein noch höheres Risiko und unterstellen eine Prävalenz des Lungenkrebses von 100/10.000 (Tabelle 20-4). Auch wenn es langweilig werden sollte, sich die Tabellen genau anzuschauen, und wir langsam müde werden, immer wieder ähnliche Tabellen zu betrachten, sollten wir es nicht unterlassen, weil wir durch die tabellarische Betrachtung sowohl die Veränderungen als auch deren Auswirkungen leichter erfassen. Der positive Vorhersagewert hat sich deutlich erhöht und beträgt immerhin 99/299, also 1/3. Jetzt sind über 30 Prozent erkrankt, wenn ihr Test positiv ist. Selbst hier offenbart sich bei einem Test der Spitzenklasse, dass nicht alle Personen wirklich erkrankt sind, wenn ihr Test positiv ist. Der einfache Reflex: „ein positiver Test ist mit der Erkrankung gleichzusetzen“ ist falsch.

Tab. 20-6 Positiver und negativer Vorhersagewert in Abhängigkeit von der Prävalenz
bei einem Test mit einer Sensitivität von 99 Prozent und einer Spezifität von 98 Prozent
Wechseln wir nun zu einem weiteren Szenario. Wenn ein 60jähriger Raucher außer Bluthusten zusätzlich über Gewichtsverlust klagt, dann können wir eine Prävalenz von 100/1.000 unterstellen, was zur Tabelle 20-5 führt. In dieser Situation wäre der positive Vorhersagewert 99/119 bzw. 83,2 Prozent. Wahrscheinlich haben viele Leser zu Beginn dieses Abschnittes vermutet, dass unser Neffe eine ähnliche Wahrscheinlichkeit aufweist, an Lungenkrebs erkrankt zu sein. Jetzt wissen wir es besser. Das Ergebnis eines Testes lässt sich nur interpretieren, wenn wir eine bestimmte Prävalenz unterstellen. Und je höher die Prävalenz ist, umso wahrscheinlicher ist dann auch die Erkrankung.
Werfen wir einen Blick zurück. Wir unterstellten am Anfang einen Supertest mit hoher Sensitivität und hoher Spezifität, so dass falsche Ergebnisse selten auftreten. Wir wendeten den Test bei einem normalen Menschen an. Ein negatives Ergebnis ist in diesen Situationen extrem verlässlich. Ein positives Ergebnis sorgte dagegen für Unruhe, weil wir nicht deutlich machten, dass wenig richtig-positive Befunde einer sehr hohen Zahl falsch-positiver Befunde gegenüberstehen. Danach wurde deutlich, dass wir den positiven Vorhersagewert erst bei einer hohen Prävalenz wirklich ernst nehmen können, wie wir in der Tabelle 20-6 sehen. Der negative Vorhersagewert ist bei allen Prävalenzen immer sehr hoch. Auf negative Befunde können wir uns offensichtlich verlassen. Der positive Vorhersagewert kann dagegen lediglich als Indikator gewertet werden, dass möglicherweise eine Erkrankung vorliegt. Mehr können und sollten wir aus diesen Vorhersagewerten nicht herauslesen.
In einigen psychologischen Studien wurde darauf hingewiesen, dass ungeschulte Ärzte die Prävalenz bei der Bewertung positiver Untersuchungsbefunde häufig vergessen und damit den positiven Befund überbewerten. Dieser Fehler wird uns jetzt nicht mehr unterlaufen. Bevor wir irgendein Urteil fällen, sollten wir schätzen, wie wahrscheinlich das Ereignis überhaupt eintreten kann. Wenn es von vornherein sehr unwahrscheinlich ist, dann wird es durch ein positives Testergebnis nicht wahrscheinlicher.
Doch weshalb neigen wir intuitiv zu diesem Fehler, die Prävalenz zu vergessen? Werden wir vielleicht von Tabelle 20-1 derartig verführt, dass wir nur auf die Sensitivität und Spezifität schauen? Werfen wir deshalb nochmals einen Blick auf die Tabelle und beachten das Verhältnis der Kranken zu den Gesunden. Es beträgt hier 1:1, was mit klinischen Untersuchungen so gut wie nie übereinstimmt. Es sei denn wir haben bereits die Personen so gefiltert, dass die Wahrscheinlichkeit für die Krankheit 50 Prozent beträgt. Ähnliche Tabellen finden wir in vielen wissenschaftlichen Publikationen, weil diejenigen, die neue Untersuchungsverfahren in Studien überprüfen, die bekannten Kranken aus ihrem Krankenhaus auswählen und mit einer ähnlichen Gruppe Gesunder vergleichen, die ebenfalls gerade zufällig verfügbar ist. Die Gewichtung ist in solchen Studien massiv zugunsten der Kranken verschoben. Das ist aber völlig unproblematisch, weil sie für die Berechnung der Sensitivität und Spezifität keine Rolle spielt. Wenn wir die Güte einer Untersuchung durch die Sensitivität und Spezifität beurteilen, dann ist das nicht gleichbedeutend mit einem guten Vorhersagewert.

Tab. 20-7 Lungenkrebs bei der zweiten Untersuchung unseres Neffen
Wahrscheinlich werden einige fragen, warum das Problem nicht direkt ins Auge springt. Die Zusammenhänge und ihre Relevanz sind so offensichtlich, dass wir uns fragen sollten, warum Ärzte im klinischen Alltag nicht an diesem Problem scheitern. Spielt es vielleicht in der ärztlichen Routine keine Rolle? Und wenn das zutrifft, warum nicht? Wenn wir genau hinschauen, dann umgehen Ärzte das Problem, indem sie „die Prävalenz sukzessive erhöhen“. Betrachten wir dazu noch einmal unseren Neffen. Bei ihm vermuteten wir eine Prävalenz von 1/100.000 und wendeten dann den Test an. Der positive Vorhersagewert betrug nach dem Test ungefähr 1/2.000. Wenn wir als Ärzte um die obigen Zusammenhänge wissen, dann beunruhigen wir nicht unseren Neffen, sondern ordnen einen zweiten Test an, bei dem wir jetzt eine Prävalenz von 1/2000 unterstellen. Mit einem zweiten Supertest erwarten wir bei 200.100 Untersuchungen die Ergebnisse in der Tabelle 20-7. Der positive Vorsagewert hat sich jetzt deutlich gebessert, von extrem unwahrscheinlich auf 99/4.099 bzw. 1/40. Jetzt könnten wir langsam nachdenklich werden, ob er nicht doch an einem Lungenkrebs leidet. Wenn wir nun noch einen dritten Test mit ähnlich guter Sensitivität und Spezifität anwenden würden, betrüge der positive Vorhersagewert mehr als 50 Prozent. Bei einem weiteren vierten Test wären wir dann exakt bei der Tabelle 20-1 angelangt. Und erst wenn wir auch hier ein positives Ergebnis erhalten, können wir sehr sicher sein.
Nun können wir auch rückschauend die Frage beantworten, weshalb das Problem im ärztlichen Alltag nicht immer relevant wird. Ärzte sind gewohnt, komplexe Puzzles effektiv und erfolgreich zusammenzusetzen. Sie verlassen sich nicht auf einen einzigen Test, ohne den Patienten mindestens einmal gesehen zu haben. Und wenn sie ihn gesehen haben, dann können sie aus dem Aussehen und Bewegungsmuster, der Vorgeschichte, dem familiären und sozialen Umfeld und der klinischen Untersuchung bereits eine relativ verlässliche Diagnose stellen, die mit hoher Wahrscheinlichkeit zutrifft. Sie fischen nicht einfach im Trüben, sondern sie selektieren bereits, bevor sie sinnvolle Untersuchungen veranlassen.