Forschen . schreiben . publizieren – Praxisnahe Bücher zum wissenschaftlichen Schreiben

Konfidenzintervall und P-Werte

Leser von biomedizinischen Originalartikeln möchten wissen, wie glaubwürdig die Daten sind. Zu diesem Zweck werden in wissenschaftlichen Forschungsartikeln nicht nur Mittelwerte plus/minus Standardabweichung angegeben, sondern auch P-Werte und/oder Konfidenzintervalle. Hier eine kurze Erklärung, worin sich diese beiden statistischen Konzepte unterscheiden.

Statistik in wissenschaftlichen Fachartikeln: der P-Wert

Balkendiagramm mit Standardabweichung.Eines ist klar: Kleine P-Werte besitzen eine größere Evidenz als große P-Werte. Denn der P-Wert gibt das Ausmaß der Evidenz gegen die Null-Hypothese wieder. Wenn zum Beispiel ein neues Medikament mit einem herkömmlichen verglichen wird, lautet die Nullhypothese: Es gibt keinen Unterschied zwischen diesen beiden Medikamenten. Wenn ich nun einen Unterschied zwischen den Medikamenten feststelle, besagt ein kleiner P-Wert, dass die Null-Hypothese sehr unwahrscheinlich ist. Oder andersherum: Dass die Wahrscheinlichkeit, dass der Unterschied allein auf dem Zufall beruht, sehr gering ist.

Oftmals werden in Fachartikeln die konkreten P-Werte wie P = 0,0038 angegeben. Meistens jedoch wird das Signifikanzniveau genannt: P < 0,05. Die Wahrscheinlichkeit, dass die Unterschiede zwischen den Medikamenten zufällig waren, liegt also unter 5 %.

Das Konfidenzintervall ist eine Wertebereich

Konfidenzintervall in einem Fachartikel.Das Konfidenzintervall ist ein Wertebereich, der einen bestimmten Parameter (zum Beispiel eine Mittelwert) mit einer vorab definierten Wahrscheinlichkeit enthält (meist 95 %).

Oder anders ausgedrückt: In 95 von 100 Experimenten wird das Konfidenzintervall den wahren Wert überdecken. Die Weite dieses Intervalls hängt vom Stichprobenumfang und von der Standardabweichung ab. Ein großer Stichprobenumfang führt meist zu einem engeren Intervall.

P-Wert und Konfidenzintervall in Fachartikeln: Wann nehme ich was?

P-Werte und Konfidenzintervall beruhen also auf unterschiedlichen statistischen Konzepten, sie sind nicht gleichbedeutend und haben in einem Fachartikel unterschiedliche Vorteile:

  • Die Werte des Konfidenzintervalls werden direkt auf Datenebene angegeben. D.h.: Wenn ich die Abnahme des Blutdrucks in mm Hg messe, wird auch das Konfidenzintervall in mm Hg angegeben (95 % CI = 2,7– 7,8 mmg Hg). Der P-Wert ist dagegen eine abstrakte Größe (P = 0,01).
  • Auf der anderen Seite sind P-Werte sehr viel übersichtlicher als Konfidenzintervalle. Wenn ich zum Beispiel zu den Effekten verschiedener Wirkstoffe eine Tabelle anfertige, kann der Leser des Fachartikels anhand der P-Werte auf einen Blick erkennen, welche Ergebnisse signifikant waren.

Klinische Studie: Signifikanz und klinische Relevanz

Das Konfidenzintervall sagt jedoch auch etwas über die klinische Relevanz aus. Ein Beispiel: In einer großen klinischen Studie wurde ein Blutdrucksenker getestet. Die durchschnittliche Reduktion betrug 17 mm Hg und der Effekt war mit P = 0,01 signifikant. Das bedeutet: Würde man 100 vergleichbare Studien durchführen, würde nur eine einzige Studie rein zufällig eine Senkung um 17 mm Hg zeigen. Das Ergebnis war signifikant, der Fachartikel sieht also nach einer erfolgreichen klinischen Studie aus. Aber ist dieses Ergebnis auch klinisch bedeutsam?

Die Frage beantwortet das Konfidenzintervall: 95 % CI = 3,1–27,4 mm Hg; P = 0,01. Wir erkennen sofort, dass der Konfidenz-Bereich sehr groß ist. Die Werte sind sehr heterogen: Die Blutdrucksenkung um 27,4 mm Hg wäre klinisch relevant, eine Senkung um 3,1 mm Hg jedoch nicht.

In diesem Beispiel war die Verwendung des Konfidenzintervalls also äußerst sinnvoll. Dennoch stehen P-Werte und Konfidenzintervalle nicht in Konkurrenz zueinander. Das eine ist ein übersichtlicher abstrakter Wert, das andere liefert Informationen zur klinischen Relevanz. Beide ergänzen sich.

Konfidenzintervall in einer klinischen Studie und klinische Relevanz.

Obwohl der Durchschnitt insgesamt mit 17 mm Hg signifikant war (p<0.01), zeigt das Konfidenzintervall, dass der Effekt in vielen Fällen klinisch überhaupt nicht relevant war (-3.1).

Etwas mehr Details zum Thema? „Why the P-value culture is bad and confidence intervals a better alternative“ von J. Ranstam (Osteoarthritis Cartilage. 2012 Aug;20(8):805-8 [PubMed-Link]).

Einen Kommentar schreiben

 
Link nach oben