Evaluierung neuer Tuberkulose-Tests: WHO-Leitlinie 2020
📋Auf einen Blick
- •Aktuelle Tests (TST und IGRA) haben einen geringen prädiktiven Wert für die Progression zu aktiver Tuberkulose (<10 % in 2 Jahren).
- •Neue Tests zielen primär auf verbesserte operative Eigenschaften (z. B. Point-of-Care, keine Kühlkette) bei mindestens gleichwertiger diagnostischer Genauigkeit ab.
- •Die Evaluierung erfordert spezifische Studiendesigns: prädiktive Performance (Longitudinal), Sensitivität/Spezifität (Querschnitt) oder Konkordanz.
- •Für die Spezifität reicht oft ein Non-Inferiority-Design, während für die Sensitivität (besonders bei Risikogruppen) ein Superiority-Design angestrebt werden sollte.
- •Wirtschaftliche und operative Faktoren (z. B. Instrumentenfreiheit, Kapillarblut) sind essenzielle Endpunkte der Testevaluierung.
Hintergrund
Etwa ein Viertel der Weltbevölkerung ist mit Mycobacterium tuberculosis infiziert. Das Lebenszeitrisiko für die Entwicklung einer aktiven Tuberkulose (TB) liegt bei 5–15 %. Die präventive Tuberkulosebehandlung (TPT) ist eine zentrale Säule der End-TB-Strategie.
Aktuelle Standardtests zur Diagnose einer TB-Infektion – der Tuberkulin-Hauttest (TST) und der Interferon-Gamma-Release-Assay (IGRA) – messen die Immunantwort auf Erregerantigene. Sie haben jedoch einen geringen prädiktiven Wert: Weniger als 10 % der positiv Getesteten entwickeln innerhalb von zwei Jahren eine aktive Erkrankung. Zudem erschweren operative Hürden wie hohe Kosten (IGRA), Kühlkettenpflicht (TST) und Laboranforderungen die weltweite Skalierung. Neue Tests sollen diese Hürden überwinden.
Hierarchie der Referenzstandards
Da es keinen echten Goldstandard für die latente TB-Infektion gibt, definiert die WHO eine Hierarchie der Evidenz für die Testevaluierung:
| Evidenzlevel | Referenzstandard | Aussagekraft |
|---|---|---|
| Am höchsten | Prädiktiver Wert für TB-Erkrankung | Direkter Nachweis des klinischen Nutzens für TPT |
| Hoch | Korrelation mit Expositionsgrad | Bestätigt den Zusammenhang mit Infektionsrisiko |
| Mittel | Sensitivität/Spezifität (Surrogat-Marker) | Nutzt aktive TB als Surrogat für Infektion |
| Am niedrigsten | Konkordanz mit existierenden Tests | Zeigt nur Übereinstimmung, keinen klinischen Mehrwert |
Studiendesigns zur Testevaluierung
Die Leitlinie empfiehlt drei primäre Studiendesigns, abhängig vom Ziel des neuen Tests:
- Prädiktive Performance (Prospektive Kohorte): Patienten mit positivem/negativem Test werden auf aktive TB gescreent und (falls gesund) für mindestens 12 Monate nachbeobachtet. Ethische Herausforderung: Positiv Getestete müssen eine TPT angeboten bekommen, was die Inzidenz senkt.
- Sensitivität und Spezifität (Querschnittsstudie): Als Surrogat für die Sensitivität wird die mikrobiologisch bestätigte aktive TB herangezogen. Für die Spezifität werden Populationen mit sehr geringem Expositionsrisiko getestet (unter Berücksichtigung von BCG-Impfstatus und nichttuberkulösen Mykobakterien).
- Konkordanz (Übereinstimmung): Geeignet, wenn der neue Test keine bessere Performance, aber operative Vorteile (z. B. geringere Kosten, Point-of-Care) bietet.
Statistische Anforderungen (Sample Size)
Die Wahl zwischen Überlegenheits- (Superiority) und Nicht-Unterlegenheits-Design (Non-Inferiority) hängt von der Performance der aktuellen Referenztests ab:
| Parameter | Performance aktueller Tests | Empfohlenes Studiendesign |
|---|---|---|
| Sensitivität | Suboptimal (72–80 %) | Superiority (besonders bei HIV/Kindern) |
| Spezifität | Sehr gut (97–99 % bei IGRA) | Non-Inferiority |
| Prädiktion | Gering (1–2 % Inzidenz/Jahr) | Non-Inferiority |
Operative und ökonomische Zielkriterien
Neue In-vitro-Tests sollten idealerweise auf der untersten Ebene des Gesundheitssystems einsetzbar sein. Die WHO definiert folgende optimale Charakteristika:
| Eigenschaft | Optimales Kriterium |
|---|---|
| Probenmaterial | Kapillarblut (Pinprick bevorzugt), minimales Volumen |
| Arbeitsschritte | < 2 Schritte, keine Volumenmessung durch Anwender |
| Dauer | < 24 Stunden bis zum Ergebnis |
| Lagerung | 24 Monate bei 40 °C und 90 % Luftfeuchtigkeit (keine Kühlkette) |
| Instrumente | Instrumentenfrei oder kleine, tragbare Geräte (Batterie/Solar) |
Zudem muss eine umfassende ökonomische Evaluierung erfolgen, die sowohl Startkosten (Geräte, Training) als auch laufende Kosten (Kalibrierung, Personalzeit, Qualitätskontrolle) im realen klinischen Setting erfasst.
💡Praxis-Tipp
Beachten Sie bei neuen IGRA-ähnlichen Tests die 'Zone of Uncertainty' (Graubereich um den Cut-off, z. B. 0,2 bis 0,7 IU/ml bei QuantiFERON). Bei Werten in diesem Bereich kann eine Wiederholungstestung nach vier Wochen sinnvoll sein, um falsch-positive Konversionen durch Testvariabilität auszuschließen.