Diagnostische Gütekriterien

Da die Entwicklung auch in der Diagnostik fortschreitet, werden wir immer wieder mit neuen Untersuchungsverfahren konfrontiert, die besser oder verlässlicher zu sein vorgeben als die herkömmlichen Verfahren. Die neuen Verfahren müssen deshalb auf ihre Leistungsfähigkeit und Güte überprüft werden, denn neue und häufig auch teurere Verfahren sind nicht zwangsläufig besser. Wir wollen uns in diesem Abschnitt mit den wichtigsten Begriffen vertraut machen, um verlässlich abschätzen zu können, ob ein Untersuchungsverfahren für uns bedeutsam sein kann oder ob es sogar besser als ein anderes Verfahren ist. Dabei unterstellen wir, dass wir uns bei jeder angeordneten Untersuchung fragen, welchen Zugewinn an Informationen wir durch die Untersuchung erhalten und ob der Zugewinn unsere Therapieentscheidung beeinflusst. Sollten wir zum Beispiel schon definitiv festgelegt haben, dass wir einen Patienten wegen einer Blinddarmentzündung operieren, dann sind weitere Untersuchungen nicht sinnvoll. Wenn wir dagegen nicht ganz sicher sind, ob wir einen Patienten mit rechtsseitigen Unterbauchschmerzen tatsächlich operieren sollten, ob unsere Vermutungsdiagnose überhaupt zutrifft oder ob wir nicht einen Fehler begehen, dann sind selbstverständlich weitere zielgerichtete Untersuchungen erforderlich. Welche das im Detail sind, wird in den Lehrbüchern thematisiert. Hier geht es um die generelle Abschätzung, ob eine Untersuchung überhaupt geeignet sein kann, uns in einer bestimmten Fragestellung zu helfen.

Um verlässlich abschätzen zu können, wie hilfreich ein Untersuchungsverfahren in einer bestimmten Situation für uns sein kann, benötigen wir Gütekriterien für Untersuchungen und Tests. Zu ihnen gehören Begriffe wie Sensitivität, Spezifität, positiver und negativer Vorhersagewert, Vortest- und Nachtestwahrscheinlichkeit und Likelihood-Ratio, von denen wir wahrscheinlich noch nie etwas gehört haben oder dessen Sinn wir nicht genau kennen. Wir sollten uns auch hier nicht von den Begriffen einschüchtern lassen. Wenn wir weiterlesen, dann werden wir die Begriffe nicht nur verstehen, sondern auch ihre gesamte Bedeutung begreifen und sie kritisch anwenden lernen. Wahrscheinlich werden einige von uns am Ende dieser Abschnitte sogar einige ihrer liebgewonnenen Untersuchungsgewohnheiten hinterfragen und womöglich ändern.

Beginnen wir zur Einführung mit einem kleinen Rätsel. Stellen wir uns vor, es wäre ein einfacher Bluttest verfügbar, der Lungenkrebs sicher diagnostizieren kann –, selbst im frühen Stadium. Lungenkrebs ist relativ häufig. Er wird überwiegend durch Rauchen verursacht, meistens sehr spät festgestellt und führt deshalb meistens zum Tod. Es wäre wünschenswert, wenn wir einen verlässlichen Test hätten, um Lungenkrebs zweifelsfrei festzustellen. Nehmen wir an, wir hätten solch einen tollen Test, der auch bereits an 10.000 Patienten auf seine Tauglichkeit erfolgreich überprüft wurde. Bei den Kranken wurden 99 von 100 richtig erkannt. Von den Gesunden wurden 98 von 100 als gesund diagnostiziert. Jetzt wenden wir den Test bei unseren fiktiven Verwandten an: unserer Tochter und unserem Neffen. Die Tochter ist negativ, während der Neffe überraschenderweise positiv getestet ist. Daraufhin wird der Neffe sehr nervös und fragt uns, ob er tatsächlich an Lungenkrebs erkrankt ist. Was schätzen wir, wie hoch die Wahrscheinlichkeit ist, dass der Neffe tatsächlich an Lungenkrebs leidet? Ist sie eher ein, fünf, 50, 95 oder 99 Prozent? Wir schreiben jetzt unsere Antwort nieder, damit wir später unsere Ansichten ehrlich überprüfen können. Wie sieht es mit unserer Tochter aus? Kann sie sich sicher sein, kein Lungenkrebs zu haben?

Alle Ärzte, die diese Abschnitte lesen, sollten die richtigen Antworten eigentlich kennen, denn vergleichbare Situationen treten täglich auf. Ärzte ordnen Untersuchungen schließlich an, um Krankheiten zu erkennen. Als Patient könnten wir erwarten, dass Ärzte uns verlässlich mitteilen, welche Bedeutung ein positives oder negatives Testergebnis für uns hat. „Wie wahrscheinlich bin ich tatsächlich erkrankt, wenn der Test positiv oder negativ ist?“ ist eine berechtigte Frage, die ein Arzt beantworten können muss, wenn er die Untersuchung anordnet. Überraschenderweise haben sehr viele Ärzte Schwierigkeiten, die richtige Antwort zu finden. Der Psychologe Gerd Gigerenzer hat über Jahrzehnte hinweg in vielen Studien und Publikationen auf diese Schwäche der Ärzte hingewiesen. Offensichtlich können wir uns hierbei nicht auf die Ärzte verlassen, so dass wir uns selbst ein Verständnis über die Bewertung von Untersuchungsverfahren aneignen sollten.

Kenner der Materie über diagnostische Verfahren werden die richtige Antwort rasch gefunden haben. Als Anfänger zucken wir wahrscheinlich die Achseln und fragen uns, was wohl mit diesen Begriffen überhaupt gemeint war. Zunächst zur guten Nachricht: Die Begriffe „Sensitivität“ und „Spezifität“ sind hinsichtlich diagnostischer Verfahren genau definiert und wir werden bald wissen, was sie bedeuten. Jetzt zur schlechten Nachricht: Die Begriffe werden von den Ärzten häufig falsch verwendet. Wenn wir zum Beispiel jemand hören, der sagt, dass man die Gesunden sehr sensitiv vorhersagen kann oder dass man die Krankheit sehr spezifisch nachweisen kann, dann verwendet der Sprecher seine private Terminologie. Warum? Weil die Sensitivität nur etwas mit Kranken und die Spezifität nur etwas mit Gesunden zu tun hat.

19.1 Sensitivität und Spezifität

Was verstehen wir nun unter der Sensitivität? Um sich die nachfolgenden Definitionen besser einzuprägen, stellen wir uns einen Korridor vor, den wir aus didaktischen Gründen „Diagnostik“ nennen. Von diesem Korridor gehen rechts und links Türen ab. Auf der rechten Tür steht in Buchstaben: „Sensitivität“. Auf der gegenüberliegenden linken Tür steht dagegen: „Spezifität“. Was finden wir hinter der Tür mit der Aufschrift „Sensitivität“? Dahinter ist ein Raum, der ausschließlich mit kranken Menschen gefüllt ist. Und was finden wir hinter der Tür mit der Aufschrift „Spezifität“? In diesem Raum befinden sich nur gesunde Menschen. Wollen wir über Kranke reden, dann sprechen wir über die Sensitivität und müssen uns rechts halten. Wollen wir dagegen über die Gesunden reden, dann sprechen wir über die Spezifität und müssen in den linken Raum. Ein spezifischer Test kann also nicht einer sein, der eine Erkrankung anzeigt, sondern es ist einer, der Erkrankungen ausschließt.

Was meinen wir, wenn wir über die Sensitivität reden und sie 70 Prozent, 90 Prozent oder 99 Prozent betragen soll. Dazu begeben wir uns in den Raum „Sensitivität“, indem sich zum Beispiel 1000 Kranke befinden. Wie gesagt, in diesem Raum befinden sich definitionsgemäß keine Gesunden. Wir stehen also in dem Raum und wollen neugierig wissen, wie hoch die Sensitivität für unseren Test ist. Wir bitten zunächst, dass sich alle Kranken hinsetzen. Dann bitten wir alle Kranken aufzustehen, wenn sie einen positiven Befund in unserem Test aufweisen. Stehen 700 Kranke auf, dann sind es 700/1000=70 Prozent. Stehen 900 Kranke auf, dann sind es 900/1000=90 Prozent. Stehen sogar 990 Kranke auf, dann sind es 990/1000=99 Prozent. Wenn die Sensitivität 99 Prozent betragen würde, dann wäre das ein Superergebnis. Es sind rein theoretisch auch Untersuchungsverfahren denkbar, die zu 100 Prozent alle Kranken erkennen. In diesem Fall würden sich alle Kranken erheben.

Die meisten Tests, die wir im medizinischen Alltag einsetzen, haben aber eher eine Sensitivität von 70 bis 90 Prozent, so dass es einen relativ hohen Anteil der Kranken von zehn bis 30 Prozent gibt, die fälschlicherweise von dem Test nicht erkannt werden. Wenn wir einen Test mit einer Sensitivität von 70 Prozent durchführen und dann bitten, dass sich die Test-positiven erheben, dann bleiben 30 Prozent sitzen, weil ihre Krankheit durch das Untersuchungsverfahren noch nicht erkannt wurde. Diese Kranken halten sich als Test-Negative weiterhin für gesund und damit irren sie sich. Ihr negatives Testergebnis ist falsch, es ist falsch negativ. Den richtig-erkannten, positiv-getesteten Erkrankten (70 Prozent) stehen die nicht-erkannten, negativ-getesteten Erkrankten (30 Prozent) gegenüber.

Wenn ein schlechter Test nur eine geringe Sensitivität von 20 Prozent besäße, dann würden sich in dem Raum sogar nur 200 Kranke von 1000 Kranken erheben. Es ist offensichtlich, dass solch ein Test wenig brauchbar ist, um die Erkrankten zu finden, denn die restlichen 800 Kranken würden nicht erkannt. Das Untersuchungsergebnis wäre bei ihnen negativ, obwohl sie alle krank sind. Die große Mehrheit der Erkrankten würde sich weiterhin für gesund halten.

Fassen wir das Bisherige zusammen: Bei der Sensitivität handelt sich um einen Anteil, der in Prozent ausgedrückt wird. Es ist der Anteil der richtig erkannten Kranken von allen Erkrankten. Je höher die Sensitivität ist, desto mehr Kranke werden tatsächlich als krank erkannt. Wenn wir die Kranken sicher erkennen wollen, dann benötigen wir einen sensitiven Test. Von den Gesunden ist hier nicht die Rede, denn in unserem Raum befinden sich ausschließlich Kranke.

Tab. 19-1   Begriffliche Zusammenhänge

Nachdem wir den Raum „Sensitivität“ verlassen haben, befinden wir uns wieder im Korridor der Diagnostik. Wir betreten nun den Raum „Spezifität“ auf der anderen Seite des Korridors, in dem sich 100 Gesunde aufhalten. Auch hier bitten wir alle, sich zu setzen und sich nur dann zu erheben, wenn das Untersuchungsverfahren tatsächlich negativ war. Beträgt die Spezifität des Testes 95 Prozent, dann wurden 95/100 der Gesunden als richtig-negativ eingestuft und 95 Gesunde stehen auf. Wenn die Spezifität des Testes dagegen nur 30 Prozent betragen würde, dann wären von den 100 Gesunden in dem Zimmer nur 30 tatsächlich negativ getestet. Die anderen 70 Gesunden wären fälschlicherweise positiv getestet worden. Sie wurden als krank angesehen, obgleich sie gesund sind. 70 Prozent wurden mithin also als falsch-positiv angesehen und zu Kranken erklärt. Je höher die Spezifität ist, umso mehr Gesunde werden durch ein negatives Testergebnis auch als gesund erkannt. Wenn wir die Gesunden sicher erkennen wollen, dann benötigen wir einen spezifischen Test. Die Spezifität sagt nichts über die Kranken aus, denn die hatten wir ja bereits in einem anderen Zimmer besucht.

Auch wenn wir Wiederholungen langweilig finden, sollten wir unsere Aufmerksamkeit auf die Tabelle 19-1 richten, in der drei Begriffspaare zusammengestellt sind.

19.2 Vierfelder-Tabelle

Wir wissen jetzt, was die Sensitivität und die Spezifität eines Testes bedeuten und wir haben die Begriffe „falsch-positiv“ und „falsch-negativ“ kennengelernt. Wir werden uns nun im nächsten Schritt mit einer so genannten Vier-Felder-Tabelle vertraut machen, um weitere Begriffe und Abhängigkeiten zu verdeutlichen. Diese Tabelle wird immer so geschrieben, dass in der Spaltenüberschrift steht, ob der Patient krank ist oder nicht (Tabelle 19-2). Als Zeilenüberschrift wird auf der linken Seite untereinander geschrieben, ob der Untersuchungsbefund positiv oder negativ ist. Wenn wir die Tabelle betrachten, dann können wir die beiden Merkmale „krank“ und „gesund“ mit den beiden Merkmalen des Testes „positiv“ und „negativ“ kombinieren. Alle vier Kombinationen werden in der Vier-Felder-Tabelle dargestellt. Unproblematisch und wünschenswert sind natürlich die richtig-positiven und richtig-negativen Befunde. Unerwünscht sind falsch-positive und falsch-negative Befunde. Ein klares Verständnis diese Vier-Felder-Tabelle ist im Weiteren unerlässlich, weil wir alle Erklärungen in solchen Tabellen darstellen.

Tab. 19-2   Mögliche Testergebnisse bei Kranken und Gesunden

Die Sensitivität bildet sich jetzt in der linken Spalte ab, denn hier sind die Kranken zusammengefasst (Tabelle 19-3). In der rechten Spalte sind die Gesunden, so dass sich hier die Spezifität abbildet. Rechnerisch gesehen ist die Sensitivität der Anteil der Test-positiven Patienten (n=99) an allen Kranken (n=100). Sie beträgt deshalb in der Tabelle 99 Prozent. Die Spezifität lässt sich berechnen als der Anteil der Test-negativen Patienten (n=98) an den Gesunden (n=100). Sie beträgt demnach 98 Prozent. Die Tabellen wurden bewusst so gewählt, dass in beiden Spalten 100 Patienten berücksichtigt wurden.

Tab. 19-3   Sensitivität von 99 Prozent und Spezifität von 98 Prozent

Natürlich können dort deutlich mehr oder weniger Patienten erscheinen. So wurde in einer kleinen Studie überprüft [Asimaki A et al. N Engl J Med 2009;360:1075], ob man durch immunhistochemischen Nachweis von Veränderungen der Desmosomen am Myokard eine arrhythmogene rechtsventrikuläre Kardiomyopathie diagnostizieren kann. Der beschriebene Sachverhalt klingt sicher sehr kompliziert und wir müssen ihn hier überhaupt nicht verstehen, sondern nur auf die relativ niedrigen Zahlen in der Tabelle 19-4 achten. In dieser kleinen Studie betrug die Sensitivität 91 Prozent und die Spezifität 83 Prozent.

Tab. 19-4   Herzveränderungen

Wenn wir einen absolut perfekten Test hätten, dann betrüge die Sensitivität und Spezifität 100 Prozent (Tabelle 19-5). Nur bei solch einem unrealistischen Test gibt es keine falschen Ergebnisse. Hier sind alle positiv getesteten Personen krank und alle negativ getesteten gesund. Solche Tests werden als unrealistisch gekennzeichnet, weil die gegenwärtigen Test immer zu falschen Ergebnissen führen können – im Guten wie im Schlechten. Es besteht immer eine bestimmte Wahrscheinlichkeit, dass der Test zu einem falsch-positiven oder falsch-negativen Ergebnis führt.

Tab. 19-5   Sensitivität von 100 Prozent und einer Spezifität von 100 Prozent

Es gibt einen wichtigen Zusammenhang zwischen beiden Kenngrößen. Sie sind quasi miteinander verknüpft, so dass sich die eine zwangsläufig ändert, wenn wir die andere manipulieren. Wir wollen jetzt begreifen, warum wir immer beide Kenngrößen betrachten müssen und nicht nur eine von beiden. Wir beginnen unser Beispiel damit, dass wir das Untersuchungsverfahren derartig manipulieren, dass wir die Sensitivität auf 100 Prozent heraufsetzen. Wie könnten wir das erreichen? Ganz einfach, indem wir nur positive Testergebnisse zulassen (Tabelle 19-6). Die Sensitivität wäre in diesem manipulierten Fall immer bei 100 Prozent, aber leider wäre die Spezifität bei null Prozent, denn wir hätten keinen Gesunden richtig erkannt. Schließlich haben wir kein negatives Testergebnis. Dasselbe ist natürlich auch umgekehrt möglich. Wenn wir nur noch negative Untersuchungsergebnisse zulassen (Tabelle 19-7), dann hätten wir zwar alle Gesunden richtig erkannt, aber keinen einzigen Kranken. Was uns diese extremen Beispiel vor Augen führen sollten, ist die Tatsache, dass wir eine der beiden Kenngrößen auf Kosten der anderen beliebig verändern können. Wenn wir die Sensitivität erhöhen, dann sinkt die Spezifität, und umgekehrt.

Tab. 19-6   Sensitivität von 100 Prozent und einer Spezifität von 0 Prozent

Die wirkliche Herausforderung besteht darin, sowohl die Sensitivität als auch die Spezifität so hoch wie möglich zu halten. Es ist deshalb nicht ausreichend, nur eine der beiden Kenngrößen anzugeben, um die Güte eines Untersuchungsverfahrens zu beschreiben. In solchen Fällen sollten wir argwöhnen, dass jemand etwas zu verbergen hat. Nur mit beiden Kenngrößen zugleich können wir die tatsächliche Wertigkeit des Verfahrens abschätzen.

Tab. 19-7   Sensitivität von 0 Prozent und einer Spezifität von 100 Prozent

Jetzt sollten wir unser Wissen an einem Beispiel anwenden. Wir betrachten einen Test mit einer sehr hohen Sensitivität, um die Kranken mit hoher Wahrscheinlichkeit zu entdecken. In der Tabelle 19-8 wurde eine Sensitivität von 95 Prozent mit einer Spezifität von 60 Prozent gewählt. Wenn wir die Ergebnisse in die Tabelle eintragen, dann wird die Konsequenz rasch offenbar: bei vielen positiven Ergebnissen werden auch viele Gesunde erfasst. Von 135 positiven Personen wären in unserem Beispiel immerhin 40 Personen falsch-positiv, d.h. wir würden sie irrtümlich für krank halten.

Tab. 19-8   Sensitivität von 95 Prozent und einer Spezifität von 60 Prozent

Wir setzen immer dann einen sehr sensitiven Test ein, wenn wir schwerwiegende Krankheiten ausschließen wollen, die wir eigentlich gut behandeln könnten. Wir wollen uns in dieser Situation nicht der Schmach aussetzen, die Krankheit übersehen zu haben. Wir nehmen dabei bewusst in Kauf, dass wir dabei auch viele Gesunde als krank bewerten. Die üblichen Screening-Untersuchungen, die wir später noch eingehend besprechen werden, funktionieren nach diesem Prinzip. Die Nachteile dieses Vorgehens sind offensichtlich und sollten uns bewusst sein. Es sind bei einem positiven Testergebnis in der Regel weitere Untersuchungen erforderlich, um die fälschlicherweise als krank erklärten Personen als tatsächlich gesund zu erkennen.

Tab. 19-9   Sensitivität von 50 Prozent und einer Spezifität von 98 Prozent

Es gibt aber auch Situationen, bei denen eine niedrige Spezifität äußerst unerwünscht ist. Wenn zum Beispiel die „falsche“ Diagnose einer Krankheit sehr schwerwiegend wäre und dem Patienten physisch, psychisch oder finanziell schädigen würde, dann würden wir einen Test mit einer sehr hohen Spezifität suchen, wie in der Tabelle 19-9 abgebildet ist. In diesen Situationen werden zwar nicht alle Kranken sicher erkannt, so dass auch hier weitere Tests erforderlich sind, aber die Gesunden werden sicher ausgeschlossen, wenn der Test positiv ist.

Vielleicht sollten wir an dieser Stelle kurz innehalten und den Abschnitt sogar noch einmal von vorn lesen. Warum? Weil uns bei der Argumentation etwas aufgefallen ist. Wenn wir zum Beispiel die Sensitivität betrachten, dann denken wir über Kranke nach, die durch ein positives Testergebnis definiert sind. Aber, – und jetzt kommt der Trick, den wir verstehen sollten -, so richtig aussagekräftig ist ein sensitiver Test nur, wenn wir uns die negativen Ergebnisse betrachten. Obgleich es um Kranke mit ihren positiven Tests geht, gewinnen wir am meisten Informationen, wenn die Person ein negatives Testergebnis aufweist. In der Tabelle 19-8 sehen wir auf einen Blick, dass wir bei einem negativen Testergebnis ziemlich sicher sein können, dass die Person gesund ist. Wie können wir uns diesen Zusammenhang erklären? Weil nur wenige Kranke ein negatives Ergebnis haben. Damit wird ein negatives Resultat kaum von den Kranken beeinflusst und wir können uns sicher sein, dass die Person gesund ist.

Tab. 19-10   Nachweis des Dickdarmkrebses durch die Kapselendoskopie

Jetzt wenden wir denselben Gedankengang auch auf die Spezifität an, die sich per definitionem auf Gesunde bezieht. Bei einer hohen Spezifität wie in Tabelle 19-9 ist ein positives Ergebnis besonders hilfreich. Warum ist das so? Analog zur obigen Erklärung können wir hier darauf hinweisen, dass bei einer hohen Spezifität nur ganz wenig Gesunde positiv getestet sind. Damit wird das positive Ergebnis wenig beeinflusst, so dass wir bei einem positiven Resultat sicher sein können, dass die Person tatsächlich krank ist.

Wenden wir unser Wissen über Gütekriterien von Untersuchungsverfahren jetzt auf eine Studie an, die überprüft [Van GA et al. N Engl J Med 2009;361:264], wie gut mit einer geschluckten Kapsel Dickdarmkrebs nachgewiesen werden konnte. Die Sensitivität und Spezifität betrug jeweils 74 Prozent. Aus der Tabelle 19-10 können wir direkt ersehen, dass es sehr viele falsche Ergebnisse gibt, die nicht akzeptabel sind. Was denken wir jetzt, wenn wir zum Beispiel in einer systematischen Übersicht lesen, dass die Sensitivität von fünf bis 83 Prozent schwankt bei einer Spezifität von 94 bis 98 Prozent [Burch JA et al. J Med Screen 2007;14:132]. Wir werden jetzt wissen, dass die Gesunden relativ verlässlich gefunden werden, aber nicht die Kranken.

Was wir bisher beschrieben haben, sind Gütekriterien einer Untersuchung, die immer berücksichtigt werden sollten, um überhaupt den Stellenwert einer Untersuchung abschätzen zu können. Wir würden uns natürlich immer Tests wünschen mit einer sehr hohen Sensitivität und Spezifität, denn dann ist die Wahrscheinlichkeit falscher Ergebnisse gering. Aber leider sieht die Realität häufig anders aus. Wenn die Sensitivität oder Spezifität zum Beispiel nur 50 Prozent betragen würden, dann entsprächen sie der Wahrscheinlichkeit eines einfachen Münzwurfes. Statt der teuren Untersuchung könnten die Ärzte dann auch eine Münze werfen. Das wäre nicht nur preiswerter, sondern wir hätten auch sofort das Ergebnis – allerdings würde das manche Patienten verwundern.

Nun zurück zu unserem Rätsel. Die Kenngrößen des Tests ergeben sich aus der Tabelle 19-3. Blättern wir zurück und schauen uns noch einmal ganz in Ruhe die Tabelle an. Die Wahrscheinlichkeit, sich zu irren oder ein falsches Ergebnis zu erhalten, ist offensichtlich sehr gering. Hätten wir den Test bei uns selbst gemacht und wären wir positiv gewesen, wären wir dann beunruhigt? Wie hoch würden wir bei uns selbst die Wahrscheinlichkeit schätzen, dass wir an einem Lungenkrebs leiden: Eher ein, fünf, 50, 95 oder 99 Prozent? Für die richtige Antwort müssen wir uns noch ein wenig gedulden.