imported>Spezi91: Änderung 263495206 von Spezi91 rückgängig gemacht;

2026-03-19T08:09:47Z

Änderung 263495206 von Spezi91 rückgängig gemacht;

Neue Seite

{{SEITENTITEL:''p''-Wert}}
Der '''''p''-Wert''' (nach [[Ronald Aylmer Fisher|R. A. Fisher]]), auch '''Überschreitungswahrscheinlichkeit''' oder '''Signifikanzwert''' genannt (<math>p</math> für {{laS|probabilitas|de=Wahrscheinlichkeit}}), ist in der [[Statistik]] und dort insbesondere in der [[Testtheorie (Statistik)|Testtheorie]] ein Evidenzmaß für die Glaubwürdigkeit der [[Nullhypothese]], die oft besagt, dass ein bestimmter Zusammenhang ''nicht'' besteht, z. B. ein neues Medikament ''nicht'' wirksam ist. Ein kleiner <math>p</math>-Wert legt nahe, dass die Beobachtungen die Nullhypothese nicht stützen. Neben seiner Bedeutung als Evidenzmaß wird der <math>p</math>-Wert als mathematisches Hilfsmittel zur Feststellung von [[Signifikanzniveau|Signifikanz]] in Hypothesentests gebraucht, dem <math>p</math>-Wert selbst muss dafür keine besondere Bedeutung zugeschrieben werden.

Der <math>p</math>-Wert ist definiert als die Wahrscheinlichkeit – [[Bedingte Wahrscheinlichkeit|unter der Bedingung]], dass die Nullhypothese in [[Wahrheit|Wirklichkeit]] gilt –, den beobachteten Wert der [[Prüfgröße]] oder einen in Richtung der Alternative „extremeren“ Wert zu erhalten. Der <math>p</math>-Wert entspricht dann dem kleinsten Signifikanzniveau, bei dem die Nullhypothese gerade noch verworfen werden kann. Da der <math>p</math>-Wert eine Wahrscheinlichkeit ist, kann er Werte von null bis eins annehmen. Dies bietet den Vorteil, dass er die Vergleichbarkeit verschiedener Testergebnisse ermöglicht. Der konkrete Wert wird durch die gezogene [[Stichprobe]] bestimmt. Ist der <math>p</math>-Wert „klein“ (kleiner als ein vorgegebenes Signifikanzniveau; allgemein < 0,05), so lässt sich die Nullhypothese ablehnen.<ref>[[Lothar Sachs]], Jürgen Hedderich: ''Angewandte Statistik: Methodensammlung mit R.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin / Heidelberg 2018, ISBN 978-3-662-56657-2, S. 452</ref> Anders ausgedrückt: Ist die errechnete Prüfgröße größer als der [[Kritischer Wert (Statistik)|kritische Wert]] (kann unmittelbar aus einer [[Quantiltabelle]] abgelesen werden), so kann die Nullhypothese verworfen werden und man kann davon ausgehen, dass die [[Alternativhypothese]] gilt und damit ein bestimmter Zusammenhang besteht (z. B. ein neues Medikament ist wirksam). Wenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird, wird das Resultat als „[[Statistische Signifikanz|statistisch signifikant]]“ bezeichnet. „Signifikant“ bedeutet hierbei lediglich „[[Überzufälligkeit|überzufällig]]“ und ist nicht gleichbedeutend mit „praktischer Relevanz“ oder „wissenschaftlicher Bedeutsamkeit“. In verschiedenen wissenschaftlichen Disziplinen haben sich festgesetzte Grenzen wie 5 %, 1 % oder 0,1 % etabliert, die verwendet werden, um zu entscheiden, ob die Nullhypothese abgelehnt werden kann oder nicht. Die Größe des <math>p</math>-Werts gibt ''keine'' Aussage über die Größe des [[Wahrer Wert|wahren]] [[Effektstärke|Effekts]].

Der <math>p</math>-Wert wird sehr [[#Typische Fehlinterpretationen|häufig fehlinterpretiert]] und falsch verwendet, weswegen sich die [[American Statistical Association]] im Jahr 2016 genötigt sah, eine Mitteilung über den Umgang mit <math>p</math>-Werten und statistischer Signifikanz zu veröffentlichen.<ref>R. Wasserstein, N. Lazar: ''The ASA’s Statement on p-Values: Context, Process, and Purpose.'' In: ''[[The American Statistician]]'', 2016, Band 70, Nr. 2, S. 129–133; [[doi:10.1080/00031305.2016.1154108]].</ref> Einer kleinen kanadischen Feldstudie von 2019 zufolge werden in etlichen Lehrbüchern die Begriffe „<math>p</math>-Wert“ und „statistische Signifikanz“ nicht korrekt vermittelt.<ref>S. Cassidy, R. Dimova, B. Giguère, J. Spence, D. Stanley: ''Failing Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly.'' In: ''Advances in Methods and Practices in Psychological Science.'' Juni 2019; [[doi:10.1177/2515245919858072]].</ref> Studien von Oakes (1986) und Haller & Krauss (2002) zeigen, dass ein Großteil von Studierenden und von Lehrern der Statistik den <math>p</math>-Wert nicht korrekt interpretieren können. Die falsche Verwendung und die Manipulation von <math>p</math>-Werten (siehe [[p-Hacking|<math>p</math>-Hacking]]) ist eine Kontroverse in der [[Meta-Forschung]].

== Mathematische Formulierung ==
Bei einem [[Statistischer Test|statistischen Test]] wird eine Vermutung ([[Nullhypothese]]) <math>H_0</math> überprüft, indem ein passendes [[Zufallsexperiment]] durchgeführt wird, das die [[Zufallsgröße]]n <math>X_1, X_2, \dotsc, X_n</math> liefert. Diese Zufallsgrößen werden zu einer einzelnen Zahl, [[Prüfgröße]] genannt, zusammengefasst:
: <math>T=u(X_1,X_2,\dotsc, X_n)</math>
Für einen [[Realisierung (Stochastik)|konkreten Versuchsausgang]] <math>X_1=x_1, X_2=x_2, \dotsc, X_n=x_n</math> des Experiments erhält man einen Wert
: <math>t=u(x_1,x_2,\dotsc, x_n)</math>.
Der <math>p</math>-Wert ist definiert als die Wahrscheinlichkeit – unter der Bedingung, dass die Nullhypothese <math>H_0</math> gilt –, den beobachteten Wert der Prüfgröße <math>t</math> oder einen in Richtung der Alternative „extremeren“ Wert zu erhalten.<ref>[[Ludwig Fahrmeir]], Rita Künstler, [[Iris Pigeot]], [[Gerhard Tutz]]: ''Statistik. Der Weg zur Datenanalyse.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3, S. 388.</ref> Für zusammengesetzte Nullhypothesen ist diese bedingte Wahrscheinlichkeit nur noch nach oben abschätzbar.

Genauer wird der <math>p</math>-Wert für einen statistischen Test mit einer Abbildung <math>\alpha\mapsto T_1(\alpha)</math>, die jedem <math>\alpha\in (0,1)</math> den zugehörigen Ablehnungsbereich <math>T_1(\alpha)</math> zuordnet, definiert als <math>p(t) := \inf\{ \alpha \mid t\in T_1(\alpha)\}</math>.

Bei einem rechtsseitigen Test gilt
: <math>p_{\text{rechts}}:=P(T\geq t\mid H_0).</math>
Bei einem linksseitigen Test gilt
: <math>p_{\text{links}}:=P(T\leq t\mid H_0).</math>
Und bei einem zweiseitigen Test gilt
: <math>p=2\cdot\min\{p_{\text{rechts}},p_{\text{links}}\}.</math>

[[Datei:P value vs alpha error.svg|mini|Für diese Realisierung <math>x</math> im [[Ablehnbereich]] <math>K</math> ist der <math>p</math>-Wert kleiner als <math>\alpha</math>, oder dazu äquivalent ist die Realisierung der Prüfgröße <math>x</math> größer als der [[Kritischer Wert (Statistik)|kritische Wert]] <math>z</math>. Hier ist <math>f</math> die [[Wahrscheinlichkeitsdichte]] der Verteilung unter der Nullhypothese.]]
Üblicherweise wird vor dem Test ein [[Signifikanzniveau]] <math>\alpha</math> festgelegt und der <math>p</math>-Wert dann mit diesem verglichen. Je kleiner der <math>p</math>-Wert ist, desto mehr Grund gibt es, die Nullhypothese zu verwerfen. Ist der <math>p</math>-Wert kleiner als das vorgegebene Signifikanzniveau <math>\alpha</math>, so wird die Nullhypothese verworfen. Ansonsten kann man die Nullhypothese nicht verwerfen.

Nach [[Frequentistischer Wahrscheinlichkeitsbegriff|frequentistischer Sichtweise]] enthält der von [[Ronald Aylmer Fisher|R. A. Fisher]] eingeführte <math>p</math>-Wert keine weiterführende Information; nur die Tatsache, ob er kleiner ist als ein vorgegebenes Niveau <math>\alpha</math>, ist von Interesse. In dieser Form ist <math>p \le \alpha</math> nur eine andere Formulierung dafür, dass der beobachtete Wert <math>t</math> der [[Prüfgröße]] in der kritischen Region liegt, und fügt der [[Neyman-Pearson-Lemma|Neyman-Pearson’schen Theorie]] der Hypothesentests nichts Neues hinzu.

== Beispiel ==
Gegeben sei eine Münze. Die zu prüfende Nullhypothese <math>H_0</math> sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind; die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. <math>K</math> bezeichne die Anzahl der Würfe, die „Kopf“ als Ergebnis liefern. Bei einer fairen Münze wäre zehnmal „Kopf“ zu erwarten. Als Statistik wählt man daher sinnvollerweise
: <math>Y = |K-10|</math>. Y = Realisierung von entweder "Kopf" oder "Zahl"

Angenommen, der Versuch liefert <math>K=14</math>-mal das Ergebnis „Kopf“, also ist die [[Realisierung (Stochastik)|Realisierung]] von <math>Y</math> hier <math>y=4</math>. Unter der Nullhypothese ist die Anzahl der Köpfe [[Binomialverteilung|binomialverteilt]] mit <math>n=20</math> und <math>p=\tfrac{1}{2}</math>. Der <math>p</math>-Wert für diesen Versuchsausgang ist daher
: <math>P(Y\geq y\mid H_0)=P(Y\geq 4\mid H_0)=\sum_{j=0}^{6}{20\choose j}\left(\frac{1}{2}\right)^{j}\left(1-\frac{1}{2}\right)^{20-j}+\sum_{j=14}^{20}{20\choose j}\left(\frac{1}{2}\right)^{j}\left(1-\frac{1}{2}\right)^{20-j}</math>
: <math>=\frac{1}{2^{20}}\sum_{j=0}^{6} {20\choose j}+\frac{1}{2^{20}}\sum_{j=14}^{20} {20\choose j}=2\frac{1}{2^{20}}\sum_{j=0}^{6} {20\choose j}\approx 0{,}115</math>.
Auf einem Signifikanzniveau von α = 5 % = 0,05 kann man die Nullhypothese ''nicht'' verwerfen, da 0,115 > 0,05 (und nicht kleiner, wie nötig wäre). Das heißt, dass man aus den Daten ''nicht'' folgern kann, dass die Münze nicht fair ist.

Wäre das Versuchsergebnis <math>k=15</math>-mal Kopf, also <math>y=5</math>, dann wäre der <math>p</math>-Wert für diesen Versuchsausgang
: <math>P(Y\geq 5\mid H_0)=2\sum_{j=0}^{5}{20\choose j}\frac{1}{2^{20}}\approx 0{,}041</math>.
Auf einem Signifikanzniveau von α = 5 % = 0,05 würde man in diesem Fall die Nullhypothese verwerfen, da 0,041 < 0,05; man würde also schließen, dass die Münze nicht fair ist. Auf einem Signifikanzniveau von 1 % hingegen wären weitere Tests nötig. (Genauer gesagt: Man würde die Datenlage für unzureichend ansehen, um den Schluss zu rechtfertigen, die Münze sei nicht fair. Dies als einen Beweis zu nehmen, dass die Münze fair ist, wäre jedoch falsch.)

== Beziehung zum Signifikanzniveau ==
Es gibt eine Äquivalenz zwischen einem Testverfahren mit der Berechnung des <math>p</math>-Wertes und einem Verfahren mit dem im Voraus bestimmten Signifikanzniveau. Der <math>p</math>-Wert <math>p</math> berechnet sich anhand des beobachteten Wertes <math>t</math> der [[Prüfgröße]], und der kritische Wert <math>k</math> folgt aus dem Signifikanzniveau <math>\alpha</math>, so gilt z. B. rechtsseitig:

: <math>p = P(T\ge t\mid H_0)</math>
: <math>\alpha = P(T\ge k\mid H_0)</math>
und
: <math>p < \alpha \Leftrightarrow t>k,</math>

[[Datei:KSTestMedianHouseprice.svg|mini|[[Kolmogorow-Smirnow-Test|KS-Test]] für die Variable „Mittlerer Hauspreis pro Bezirk“ des [[Portal:Statistik/Datensaetze#Boston Housing|Boston-Housing-Datensatzes]].]]
wobei <math>k</math> den [[Kritischer Wert (Statistik)|kritischen Wert]] darstellt. In statistischer Software wird bei der Durchführung eines Tests der <math>p</math>-Wert, siehe rechts unter ''Asymptotische Signifikanz'' (letzte Zeile im Kasten), angegeben. Ist der <math>p</math>-Wert kleiner als das vorgegebene Signifikanzniveau <math>\alpha</math>, so ist die Nullhypothese abzulehnen.

Auf der einen Seite enthebt die Ausgabe des <math>p</math>-Wertes bei einem Test die Software explizit davon, nach dem vorgegebenen Signifikanzniveau zu fragen, um eine Testentscheidung zu treffen. Auf der anderen Seite besteht die Gefahr, dass der Forscher das eigentlich im Voraus festzulegende Signifikanzniveau anpasst, um sein gewünschtes Ergebnis zu bekommen.

== Weitere Eigenschaften ==
Falls die Prüfgröße eine stetige Verteilung hat, ist der <math>p</math>-Wert unter einer einpunktigen Nullhypothese [[Stetige Gleichverteilung|gleichverteilt]] auf dem Intervall <math>[0,1]</math>.<ref>Besag, Clifford: ''Sequential Monte Carlo p-values''. In: ''Biometrika'' Nr. 78(2), 1991. S. 301–304. [[doi:10.1093/biomet/78.2.301]].</ref>

== Typische Fehlinterpretationen ==
Wenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird, wird das Resultat als „[[Statistische Signifikanz|statistisch signifikant]]“ bezeichnet. „Signifikant“ bedeutet hierbei lediglich „[[Überzufälligkeit|überzufällig]]“. Ein häufiges Missverständnis ist die Gleichsetzung dieser Aussage mit der falschen Behauptung, der <math>p</math>-Wert würde angeben, wie wahrscheinlich die Nullhypothese bei Erhalt dieses Stichprobenergebnisses sei. Tatsächlich wird mit dem <math>p</math>-Wert jedoch angedeutet, wie extrem das Ergebnis ist: Je kleiner der <math>p</math>-Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese.

Goodman formuliert zwölf Aussagen über <math>p</math>-Werte, die ausgesprochen weit verbreitet und dennoch falsch sind,<ref>Steven Goodman: ''A Dirty Dozen: Twelve P-Value Misconceptions.'' In: ''Seminars in Hematology'', 2008. Nr. 45, S. 135–140; [https://www.academia.edu/download/31375229/twelve_P_value_misconceptions.pdf academia.edu] (PDF) abgerufen am 17. Dezember 2021.</ref> so zum Beispiel die folgenden:
* Falsch ist: Wenn <math>p=0{,}05</math>, ist die Chance, dass die Nullhypothese wahr ist, nur 5 %.
* Falsch ist: Ein nicht-signifikanter Unterschied bedeutet bei einem Mittelwertsvergleich zwischen zwei Gruppen, dass die Mittelwerte gleich sind.
* Ebenfalls falsch ist: Nur ein signifikanter Unterschied bedeutet, dass das Ergebnis in der Realität, beispielsweise in der klinischen Anwendung, wichtig ist.

== Kritik am ''p''-Wert ==
Kritiker des <math>p</math>-Werts weisen darauf hin, dass das Kriterium, mit dem über die „statistische Signifikanz“ entschieden wird, auf einer willkürlichen Festlegung des Signifikanzlevels basiert (oft auf 0,05 gesetzt) und dass das Kriterium zu einer alarmierenden Anzahl von falsch-positiven Tests führt. Der Anteil aller „statistisch signifikanten“ Tests, bei denen die Nullhypothese wahr ist, könnte beträchtlich höher sein als das Signifikanzniveau, was wiederum davon abhängt, wie viele der Nullhypothesen falsch sind und wie hoch die [[Trennschärfe eines Tests|Trennschärfe des Tests]] ist.
Die Einteilung der Resultate in signifikante und nicht-signifikante Ergebnisse kann stark irreführend sein. Zum Beispiel kann die Analyse von beinahe identischen Datensätzen zu <math>p</math>-Werten führen, die sich stark in der Signifikanz unterscheiden. In der medizinischen Forschung stellte der <math>p</math>-Wert anfangs eine beachtliche Verbesserung der bisherigen Ansätze dar, aber gleichzeitig ist es mit der steigenden Komplexität der publizierten Artikel wichtig geworden, die Fehlinterpretationen des <math>p</math>-Werts aufzudecken. Es wurde darauf hingewiesen, dass in Forschungsfeldern wie der Psychologie, bei denen Studien typischerweise eine niedrige Trennschärfe haben, die Anwendung von Signifikanztests zu höheren Fehlerraten führen kann.
Die Verwendung von Signifikanztests als Grundlage von Entscheidungen wurde wegen der weit verbreiteten Missverständnisse über den Prozess ebenfalls kritisiert. Entgegen der landläufigen Meinung gibt der <math>p</math>-Wert nicht die Wahrscheinlichkeit der Nullhypothese an, wahr oder falsch zu sein. Des Weiteren sollte die Signifikanzschwelle nicht festgelegt werden, ohne die Konsequenzen eines falsch-positiven oder falsch-negativen Ergebnisses des konkreten Tests zu berücksichtigen.

== Alternativen ==
[[P-Werte der zweiten Generation]] ({{lang|en|''second generation p-values''}}) erweitern das Konzept der p-Werte so, dass extrem kleine, praktisch unrelevante [[Effektgröße]]n nicht als signifikant bewertet werden.<ref>{{Literatur |Autor=Jeffrey D. Blume, Robert A. Greevy, Valerie F. Welty, Jeffrey R. Smith, William D. Dupont |Titel=An Introduction to Second-Generation p-Values |Datum= |Sprache=en |DOI=10.1080/00031305.2018.1537893}}</ref>

Der [[Bayes-Faktor]] ist eine Alternative für den p-Wert in der [[Bayessche Statistik|bayesschen Statistik]].

Der S-Wert (eng. ''S-value'') oder auch Überrasschungswert (eng. ''surprisal value'') wurde als logarithmische Transformation des p-Wertes definiert:

'''S-Wert = - log<sub>2</sub>(''p''-Wert)'''.<ref name=":0">{{Internetquelle |url=https://jkruppa.github.io/stat-tests-basic.html |titel=Die Testentscheidung |sprache=de |abruf=2026-01-13}}</ref><ref>{{Literatur |Autor=Zad Rafi, Sander Greenland |Titel=Semantic and cognitive tools to aid statistical science: replace confidence and significance by compatibility and surprise |Sammelwerk=BMC Medical Research Methodology |Band=20 |Nummer=1 |Datum=2020-09-30 |ISSN=1471-2288 |DOI=10.1186/s12874-020-01105-9 |Seiten=244}}</ref>

Die Transformation in S-Werte soll mithilfe einer intuitiveren, logarithmischen Skala, die angibt, wie „überrascht“ man über ein Ergebnis ist, die Interpretation von p-Werten erleichtern.<ref name=":0" /><ref>{{Internetquelle |url=https://www.statskingdom.com/surprisal-calculator.html |titel=Standard deviation calculator |abruf=2026-01-13}}</ref><ref>{{Literatur |Autor=Alessandro Rovetta |Titel=S-values and Surprisal intervals to Replace P-values and Confidence Intervals: Accepted - January 2024 |Sammelwerk=REVSTAT-Statistical Journal |Datum=2024-01-12 |ISSN=2183-0371 |DOI=10.57805/revstat.v23i4.669}}</ref> Dabei führen kleinere p-Werte zu größeren S-Werten.<ref name=":0" />

== Weblinks ==
{{Commonscat|P-value|P-Wert}}
* [http://qed.econ.queensu.ca/walras/custom/300/351B/notes/glo_07.htm#pvalue Kurze Darstellung des <math>p</math>-Wertes.] Queen’s University, Kingston, Canada (englisch).
* ''Simple facts about p-values.'' [[Collider Detector at Fermilab|CDF]] Statistics Committee:Memo, CDF/MEMO/STATISTICS/PUBLIC/8023. 2006 (englisch); [http://physics.rockefeller.edu/luc/technical_reports/cdf8023_facts_about_p_values.pdf physics.rockefeller.edu] (PDF; 113 kB).
* [http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/pvalues.htm P-value calculator.] ubalt.edu; zur automatischen Berechnung des <math>p</math>-Werts.
* [http://www.spektrum.de/alias/umstrittene-statistik/wenn-forscher-durch-den-signifikanztest-fallen/1224727 ''Wenn Forscher durch den Signifikanztest fallen''.] spektrum.de; Kritik des <math>p</math>-Wertes.
* [http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124 ''Why Most Published Research Findings Are False''.] [[Public Library of Science|PLoS]].
* [https://peerj.com/articles/3544 ''The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research''.] peerj.com
* [https://www.statworx.com/at/blog/der-p-wert-und-die-false-discovery-rate/ Blogbeitrag zum Thema p-Wert und False Discovery Rate.] statworx.com; abgerufen am 26. Oktober 2020.

== Einzelnachweise ==
<references />

[[Kategorie:Testtheorie]]
[[Kategorie:Statistischer Grundbegriff]]

P-Wert - Versionsgeschichte

imported>Spezi91: Änderung 263495206 von Spezi91 rückgängig gemacht;