Screening

Beim Schlendern auf dem Korridor stoßen wir am Ende auf eine Tür mit der Aufschrift „Screenings/Vorsorgeuntersuchungen“, durch die wir neugierig treten. Hier finden wir einen Raum, dessen Wände mit Postern ausgekleidet sind, die für Screenings unterschiedlicher Erkrankungen werben. Auf der linken Seit steht an der Wand ein großes Gerät mit mehreren Knöpfen, Tastatur und Monitor, das sehr fremdartig und wie ein Labyrinth wirkt.

Vorsorgeuntersuchungen bzw. Screenings sind seit vielen Jahren in aller Munde, weil sie angeblich das Überleben und die Lebensqualität verbessern. Ob diese Hoffnungen aber tatsächlich erfüllt werden oder überhaupt erfüllbar sind, wird zum Teil sehr kontrovers diskutiert, so dass dieser Raum für uns sehr interessant werden könnte. Wir machen uns hier mit den Grundlagen von Screenings vertraut, um die grundsätzlichen Vor- und Nachteile in vollem Umfang zu begreifen. Diese Kenntnisse werden uns vor zu optimistischen Erwartungen schützen und uns zugleich vor großen Enttäuschungen bewahren.

Was sind Screenings? Es handelt sich um bevölkerungsweite Untersuchungen subjektiv gesunder Menschen, um Vor- oder Frühformen einer Erkrankung zu erkennen. Screenings scheinen durch ihre anziehende Logik direkt zu überzeugen: wenn man eine Krankheit entdecken würde, die man heilen kann könnte, bevor sie eigentlich so richtig ausbricht, dann kann das nur vorteilhaft sein. Diese attraktive Logik klingt zwar bestechend, doch ist es leider nicht ganz so einfach, wie allseits bei den Befürwortern von Screenings zu hören ist. Das Für und Wider der unterschiedlichen Vorsorgeprogramme abzuwägen, ist selbst für Experten schwierig, und sie kommen nicht selten zu konträren, häufig sehr emotional vorgetragenen (Vor)Urteilen. Wir werden uns hier zwar ausschließlich mit Screenings von bösartigen Tumoren auseinandersetzen – dieselben Prinzipien gelten natürlich auch für andere Screenings.

Nachdem wir die kurzen Beschreibungen von vielen bekannten Screenings an den Wänden gelesen haben, wenden wir uns der großen Maschine zu. Über der Maschine steht geschrieben: „Simulieren sie das Screening von Dickdarmkrebs (roter Knopf) oder Brustkrebs (blauer Knopf).“ Wir drücken auf den blauen Knopf. Danach leuchtet der Monitor auf, der einige Risikofaktoren, die Familiengeschichte und unser Alter abfragt. Nachdem wir alles eingegeben und <Enter> gedrückt haben, rollt plötzlich eine blaue Murmel vom rechten unteren Rand der Maschine zu einem kleinen Loch und daraufhin erscheint auf dem Monitor: „Bei der Mammographie wurde ein verdächtiger Befund erhoben, der in einem Jahr kontrolliert werden sollte.“ Wir drücken wieder auf <Enter> und die Murmel läuft auf ein weiteres Loch zu. Diesmal erscheint: „Bei der erneuten Mammographie wurde der verdächtige Befund bestätigt. Bitte lassen Sie eine Gewebeprobe machen.“ Danach rollt die Kugel zu einem Gitter mit der Aufschrift „Gewebeprobe“ verweilt dort eine gewisse Zeit und bewegt sich dann zum nächsten Loch mit der Aufschrift „Operative Entfernung“. Von hier rollt die Kugel in einer langgezogenen Rechtskurve langsam wieder zum Ausgangspunkt und auf dem Monitor erscheint: „Es tut uns leid. Wir haben bei der Gewebeprobe den Verdacht auf einen frühen Krebs gehabt und deshalb einen Teil der Brustdrüse entfernt. In der endgültigen Histologie erwies sich der Befund als gutartig, so dass sie mit dem Screening wieder von vorn beginnen können. Vielen Dank, dass Sie an diesem Spiel teilgenommen haben.“

Upps, denken wir und spielen noch einmal von vorn. Jedes Mal geben wir andere Risikofaktoren und ein unterschiedliches Alter an. Diesmal rollt eine Kugel wieder zum ersten Loch, stoppt kurz und rollt dann wieder zum Ausgangspunkt zurück. Auf dem Monitor erscheint: „Ihre Mammographie ist unauffällig. Bitte wiederholen Sie die Untersuchung in den erforderlichen Intervallen. Vielen Dank, dass Sie an diesem Spiel teilgenommen haben.“ Neugierig wiederholen wir das Spiel zwanzig Mal und werden schon richtig müde, als sich das Szenario beim 21. Mal ändert. Dieses Mal wird nach einer sehr verdächtigen Mammographie ein Tumor entfernt und ein fortgeschrittener Brustkrebs gefunden. Nach fünfzehn weiteren unauffälligen Spielrunden findet sich dann sogar ein kleiner früher Brustkrebs bei einer 75jährigen Patientin mit schwerem Herzleiden.

Die wenigen beschriebenen Beispiele wurden bewusst provokativ gewählt. Die Spielerin profitierte nämlich in keiner Runde vom Spiel. Im ersten Spiel wurde sie sogar geschädigt. Auch das letzte Beispiel ist kein wirklicher Erfolg des Screenings, weil der kleine Brustkrebs überhaupt keinen Einfluss auf die Prognose dieser Patientin haben wird, denn sie wird bald an ihrem Herzleiden sterben. Selbst im vorletzten Beispiel beim Nachweis eines bereits sehr fortgeschrittenen Tumors ist der Einfluss auf die Prognose fraglich, weil sie möglicherweise innerhalb weniger Monate auch so aufgefallen worden wäre. Was hier demonstriert werden soll, ist die Komplexität, wenn wir den Nutzen des Screenings abschätzen. Um den Erfolg fair zu beurteilen, reicht es nicht aus, nur die Anzahl der neu erkannten Krebsleiden aufzuzählen, sondern es muss eine tatsächliche Verbesserung des Überlebens nachgewiesen werden. Außerdem müssen die zum Teil sehr schwerwiegenden Nachteile beachtet werden.

Bevor wir jetzt unserem Impuls nachgeben und weiterspielen, indem wir mehrfach auf den roten Knopf drücken, werden wir uns nicht nur spielend, sondern auch argumentativ mit der Vorsorgeuntersuchung des Darmkrebses auseinandersetzen und noch einmal die Details und Probleme spezifizieren. Die Ziele des Screenings beim Darmkrebs sind klar umrissen. Es sind einerseits die Verbesserung der Lebensqualität, indem die erforderliche Behandlung nicht so belastend ist wie bei fortgeschrittenen Tumoren, und andererseits die Verbesserung der Lebenserwartung, indem mehr Patienten geheilt werden. Wir möchten die Vorstufen oder Frühformen von bösartigen Tumoren diagnostizieren, um sie möglichst über eine Darmspiegelung abzutragen und damit die Patienten zu heilen. Dann wären sie noch in einem so frühen Stadium, dass wir den Tumor optimal behandeln und den Patienten definitiv heilen könnten. Wir orientieren uns daran, Adenome (Polypen) oder Frühkrebse zu finden, bevor sie sich zu fortgeschrittenen Tumoren entwickelt haben.

Tab. 23-1 Screening bei einer Sensitivität von 99 %, Spezifität von 98 % und Prävalenz von 100:100.100 des Dickdarmkrebses

Wie gehen wir bei Screenings methodisch vor? Sie werden bei Menschen durchgeführt, die nicht bereits über typische Beschwerden klagen. Wir suchen demnach Erkrankte ohne Symptome. Wir wollen von den sehr vielen scheinbar Gesunden die wenigen Erkrankten unterscheiden. Jetzt kommen die Begriffe „Spezifität“, „Sensitivität“ und „Prävalenz“ ins Spiel. Jetzt können wir zeigen, dass wir die vorhergehenden Abschnitte wirklich verstanden haben. Wir suchen jetzt einen Test mit einer sehr hohen Spezifität und Sensitivität, den wir flächendeckend bei allen scheinbar Gesunden anwenden wollen. Hier stoßen wir sofort auf das entscheidende Problem, das uns bereits bestens bekannt ist: Trotz hoher Sensitivität und hoher Spezifität werden wir sehr viele Patienten als falsch-positiv bewerten. Betrachten wir dazu die Tabelle 23-1, in der wir eine Sensitivität von 99 Prozent und eine Spezifität von 98 Prozent bei einer Prävalenz von 100:100.000 unterstellen. Wenn wir uns in dieser Tabelle die erste Spalte der positiven Testergebnisse anschauen, dann erkennen wir schlagartig die sehr hohe Rate an falsch-positiven Untersuchungen. Von 2.099 Patienten mit positivem Ergebnis, werden nur 99 ein Karzinom aufweisen. Diese Menschen müssen alle fälschlicherweise durch den Prozess der weiteren Tumorsuche oder -behandlung, obwohl sie keinen Tumor haben. Alle werden für kurze Zeit mit der Furcht konfrontiert, an einem bösartigen Tumor erkrankt zu sein. Erst die weiteren Folgeuntersuchungen klären den Irrtum auf. Wir sollten deshalb immer berücksichtigen, welche Folgeuntersuchungen oder -behandlungen wir mit dem Screening bei den Falsch-Positiven veranlassen.

So führen falsch-positive Untersuchungen beim Brustkrebs zu Eingriffen oder sogar Operationen an der Brust, die dort eine Narbe im Gewebe hinterlassen. Diese Narben sind wiederum bei den Folgeuntersuchungen schwierig zu beurteilen, so dass nicht selten ein Teil der Brust entfernt werden muss, um sich definitiv sicher zu sein, dass kein Tumor vorliegt. Falsch-positive Befunde sind nicht harmlos für die Patienten. Die Konsequenzen eines falsch-positiven Befundes sollten jedenfalls bei der Nutzenabwägung berücksichtigt werden.

Die oben unterstellte hohe Treffsicherheit beim Darmkrebs würden wir mit der Darmspiegelung erreichen. Mit dem immer noch durchgeführten Test auf Blut im Stuhl (FOBT) beträgt die Sensitivität aber nur 75 (33–100) Prozent und die Spezifität nur 86 (72–94) Prozent [Jellema P et al. Br Med J 2010;340:1269]. In Tabelle 23-2 sind die Ergebnisse für die durchschnittlichen Werte des FOBT dargestellt. Wir erkennen auf einen Blick, dass die Rate der Falsch-Positiven äußerst hoch ist und dass 25 Patienten trotz eines negativen Tests an einem Karzinom erkrankt sind. Auch wenn die Sensitivität und Spezifität des FOBT niedrig erscheinen, wurden für dieses Screening mit FOBT in mehreren randomisierten Studien belegt, dass dadurch die Mortalität des Darmkrebses gesenkt werden kann [Hardcastle JD et al. Lancet 1996;348:1472, Mandel JS et al. N Engl J Med 1993;328:1365, Kronborg O et al. Lancet 1996;348:1467].

Tab. 23-2 Screening bei einer Sensitivität von 75 %, Spezifität von 86 % und Prävalenz von 100:100.100 des Dickdarmkrebses

Die gegenwärtigen Vorsorgeempfehlungen sehen den Test auf okkultes Blut (FOBT) nur noch als zweite Wahl vor und empfehlen stattdessen gleich die Darmspiegelung mit 55 Jahren und eine wiederholte Untersuchung nach weiteren zehn Jahren. Doch auch die Darmspiegelung ist nicht perfekt. Aus einer kanadischen Untersuchung ist bekannt, dass zwei bis vier Prozent aller rechtsseitigen Darmkrebse übersehen werden können [Singh H et al. JAMA 2006;295:2366]. Die Darmspiegelung dürfte somit eine Sensitivität von etwa 99 Prozent haben. Die Spezifität beträgt auch nicht 100 Prozent, weil auch entzündliche Stenosen im Kolon gefunden werden, die bei der Darmspiegelung nicht überwindbar sind und als verdächtig eingestuft werden. Auch wenn die gegenwärtigen Vorsorgeuntersuchungen beim Darmkrebs als sehr effektiv angesehen werden können, werden sie bedauerlicherweise von der Bevölkerung nicht so angenommen, wie allgemein erwünscht (weniger als drei Prozent).

Tab. 23-3 Theoretische Ergebnisse eines Screenings beim Darmkrebs

Fassen wir zusammen: Ein Screening setzt voraus, dass es eine schwere Erkrankung gibt, die als frühe Form erkennbar und effektiv behandelbar ist, so dass sich die Prognose verbessert. Es wird unterstellt, dass die erforderlichen Tests und sich daraus ergebenden Folgemaßnahmen für die Patienten akzeptabel sind und der Nutzen des Screenings nachgewiesen wurde. Und genau hier ist die Schwachstelle bei einigen Screenings: Der geringe Nutzen bei nicht unerheblichen Kosten. Stellen wir uns noch einmal tabellarisch ein ausgedachtes Szenario vor, das in einer Millionenstadt bei 100.100 willigen und disziplinierten Patienten im Alter von 50 bis 70 Jahren stattgefunden haben könnte (Tabelle 23-3). Am Ende profitieren in unserem Szenario ungefähr 30 Patienten von dem FOBT-Screening. Nun stellen wir uns zusätzlich vor, alle 100.100 Personen hätten auch eine Darmspiegelung erhalten. Was hätten wir damit erreicht? Wir hätten zunächst eine immense Kostensteigerung verursacht, schließlich werden 100.100 Darmspiegelungen erforderlich statt 14.075. Im Endergebnis gewinnen wir im Vergleich mit FOBT jedoch nur die 25 falsch-negativ diagnostizierten Karzinome hinzu. Wir müssen letztlich 4.000 Patienten einer Darmspiegelung unterziehen, um einen Darmkrebs zusätzlich zu erkennen. Ist das gerechtfertigt?

Wenn wir den Nutzen eines Screenings kritisch und fair beurteilen wollen, dann sollten wir einige Fehlerquellen ausschalten, die sich besonders dann auswirken, wenn keine randomisierten Studien vorliegen. Einige der gegenwärtig empfohlenen Screeningmaßnahmen basieren ausschließlich auf der bestechender Logik und angehäuften Datensammlungen über bösartige Tumore. Bei manchen Erkrankungen erscheint die Logik von Screenings so überzeugend, dass der Nutzen als von vornherein gesichert unterstellt wird. Die Befürworter sind häufig so überzeugt davon, dass sie ihre Thesen noch nicht einmal in vergleichenden Studien überprüfen möchten. – Und wenn solche „sicheren“ Überzeugungen dann später doch in randomisierten Studien überprüft werden, wie zum Beispiel der PSA-Test beim Prostatakrebs, dann werden meistens alle überrascht, wie gering der Nutzen tatsächlich ist.

In Fällen ohne vergleichende randomisierte Studien dürfen wir uns nicht davon blenden lassen, dass die hoch motivierten Befürworter mit Daten belegen können, dass sich die Prognose durch das Screening verbessert hätte. Solche Nachweise sind meistens leicht zu erbringen, weil sich einige typische und gut bekannte Fehler dahinter verbergen können. Welche dieser Fehlerquellen die Prognosen fälschlicherweise begünstigen, wird uns durch ein einfaches Gedankenexperiment bewusst. Wir unterstellen zunächst als Hypothese, dass wir definitiv wissen, dass das Screening die Prognose nicht verbessert. Dann unterstellen wir zusätzlich, dass die Ergebnisse im Vergleich mit einem historischen Kollektiv dennoch scheinbar zu einem verlängerten Überleben führen. Wie können wir uns das erklären?

Abb. 23-1 Vorlauf-Bias

Es gibt bei Screenings mindestens vier bedeutende Fehlerquellen, die ein längeres Überleben suggerieren können. Die erste ist der sogenannte Vorlauf-Bias (Lead time bias). Betrachten wir dazu die Abbildung 23-1. Der Verlauf einer bösartigen Erkrankung wurde auf dem oberen Zeitpfeil dargestellt, mit dem unbekannten Zeitpunkt der Tumorentstehung, dem Zeitpunkt der Diagnose durch Symptome und der Tod durch die Tumorerkrankung. Auf dem zweiten unteren Zeitpfeil ist derselbe Beginn, aber eine frühere Diagnose durch das Screening eingezeichnet. Wenn der Todeszeitpunkt in Wirklichkeit gar nicht beeinflussbar ist, dann wird dennoch eine verlängerte Überlebenszeit nachgewiesen, weil der Diagnosezeitpunkt vorgelagert wird. De facto haben wir dem Patienten nicht geholfen, sondern ihm nur früher gesagt, dass er an einem bösartigen Tumor leidet, an dem er sterben wird. Wenn eine Krankheit früher als üblich erkannt wird, dann ist natürlich das Überleben der Patienten länger, obgleich der Patient zum selben Zeitpunkt stirbt. Gewonnen hat der Patient dabei nichts. Er ist nur früher mit seiner Erkrankung konfrontiert worden und musste länger darunter leiden. Der simple Nachweis einer Lebensverlängerung besagt somit zunächst wenig.

Wir können uns an einem extremen Beispiel die Bedeutung des Vorlauf-Bias verdeutlichen. Nehmen wir an, dass wir in der oberen Zeitschiene der Abbildung 23-1 einen bösartigen Tumor bei 500 Patienten beobachtet haben. Alle Patienten sterben innerhalb von drei Jahren nach der Diagnose. Vom Zeitpunkt der ersten Beschwerden vergehen trotz adäquater Behandlung weniger als drei Jahre, bis alle gestorben sind. Die sogenannte 3-Jahres-Überlebensrate beträgt somit 0 Prozent. Stellen wir uns jetzt vor, dass wir mit einem neuen Screening diese Tumoren drei Jahre früher feststellen. Wir verlagern also den Zeitpunkt der Diagnose auf der unteren Zeitschiene in Abbildung 23-1 nach links. Jetzt wollen wir weiterhin unterstellen, dass die Patienten dennoch an dem Tumorleiden sterben werden, weil es keine effektive Behandlung gibt. Wenn wir nun die berechnete Prognose der beiden Zeitpfeile vergleichen, stellen wir trotz derselben Gesamtsterblichkeit fest, dass sie sich deutlich unterscheiden. Im oberen Zeitpfeil betrug die 3-Jahres-Überlebensrate Null, während sie im unteren Zeitpfeil 100 Prozent beträgt, denn nach drei Jahren ist noch keiner verstorben, sondern die Patienten entwickeln jetzt erst die ersten Beschwerden. Krasser kann der Unterschied nicht sein, der durch einen Vorlauf-Bias bedingt ist.

Die zweite Fehlerquelle (Length time bias) beruht darauf, dass wir die Screenings in Zeitintervallen von mehreren Jahren durchführen. Schnell und aggressiv wachsende Tumoren können in den Intervallen entstehen und so dem Screening entgehen, während langsam wachsende Tumore im Screening sicher erkannt werden. Dadurch erscheint die Prognose der Tumore im Screening besser, weil weniger aggressive Tumoren in der anderen Gruppe vertreten sind.

Bei der dritten großen Fehlerquelle handelt es sich um ein Auswahlproblem (Selection bias). Wir sollten bedenken, dass nicht alle Menschen an dem Screening teilnehmen, die eigentlich dafür vorgesehen sind. Es ist bekannt, dass diejenigen Menschen, die gesundheitsbewusst leben (und häufig auch einen höheren Sozialstatus haben), häufiger zum Screening gehen und damit die Ergebnisse zugunsten besseren Überlebens verzerren. Die Ergebnisse der weniger gefährdeten Patienten sind dann zwangsläufig besser, weil eine Selektion der Teilnahme stattgefunden hat. Andererseits nehmen Patienten, in dessen Familie bereits Krebspatienten bekannt sind, ebenfalls häufiger am Screening teil. Die Häufigkeit von Tumoren wird damit weit überschätzt, weil die „unbedenklichen“ Gesunden nicht zum Screening erscheinen.

Als bekannte vierte Fehlerquelle kann der Überdiagnose-Bias gelten, den wir uns folgendermaßen vorstellen können: Betrachten wir zum Beispiel 500 Patienten mit einem Dickdarmkrebs, die sich in einem Krankenhaus vorstellten, nachdem sie über Beschwerden klagten. Nach fünf Jahren leben noch 250 Patienten, so dass die 5-Jahresüberlebensrate 50 Prozent beträgt. Wenn wir jetzt eine Vorsorgeuntersuchung durchführen und weitere 500 Patienten ohne Beschwerden erkennen, dann könnten diese Tumoren so langsam wachsen, dass sie in den nächsten fünf Jahren das Leben der Patienten nicht bedrohen. Durch die zusätzliche Aufnahme der 500 Patienten erhöht sich die Zahl auf 1000 Patienten, von denen weiterhin 250 Patienten innerhalb von fünf Jahren sterben. Damit beträgt die Prognose jetzt 250/1000 bzw. 75 Prozent. Die Prognose hat sich „auf dem Papier“ deutlich gebessert, obgleich genausoviel Patienten sterben wie vorher.

Es bleibt dabei: Wenn man Screenings sinnvoll bewerten will, sind randomisierte Studien erforderlich. Vollmundige Behauptungen und Beschreibungen der inneren Logik sind nicht ausreichend, um den Nutzen zu belegen und die Kosten zu rechtfertigen. Der Vergleich eines neuen Screenings mit historischen Vergleichen ist sehr stark gefährdet, einer bedeutenden Verzerrung zu unterliegen. Wenn wir dem Patienten Screenings empfehlen, dann sollten wir darauf hinweisen, dass sie sehr wahrscheinlich nützlich sind, aber in einigen Fällen auch massiv schaden können. Interessant ist Lancet 2014;384:2027. Bei 162388 randomisierten Patienten wird seit 1993 der Einfluss eines PSA-Screenings beim Prostatakarzinoms überprüft. Die Gesamtsterblichkeit wird nicht beeinflusst.