p-vrednost

У статистичком тестирању хипотезе, p-вредност (енгл. probability value) или вредност вероватноће, за дати статистички модел вероватноћа је да ће, када је нулта хипотеза тачна, статистички параметар (као што је апсолутна вредност просечне разлике између две упоређене групе) бити већи или једнак стварно уоченом резултатима.^[1] Употреба p-вредности у тестирању статистичких хипотеза је уобичајена у многим областима истраживања^[2] као што су физика, економија, финансије, политичке науке, психологија,^[3] биологија, кривично право, криминологија и социологија.^[4] Злоупотреба p-вредности је контроверзна тема у метанауци.^[5]

Закошавање слова, употреба великих слова и дељења речи варирају. На пример, АМА стил користи „П вредност”, АПА стил користи „п вредност”, а Америчко статистичко удружење користи „п-вредност”.^[6]

Дефиниција и интерпретација

Дефиниција

Вероватноћа под нултом хипотезом добијања статистике теста са реалном вредношћу која је најмање екстремна као и добијена

Узмимо у обзир посматрану статистику теста $t$ из непознате дистрибуције $T$ . Тада је п-вредност $p$ оно што би била претходна вероватноћа да се посматра статистичка вредност теста барем тако „екстремна” као $t$ ако је нулта хипотеза $H_{0}$ била истинита. То је:

$p=\Pr(T\geq t\mid H_{0})$ за једнострану дистрибуцију тест статистике на десни реп,
$p=\Pr(T\leq t\mid H_{0})$ за једнострану дистрибуцију тест статистике са леве стране,
$p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ за двострану дистрибуцију тест-статистике. Ако је расподела $T$ симетрична око нуле, онда је $p=\Pr(|T|\geq |t|\mid H_{0})$

Тумачења

п-вредност као статистика за извођење тестова значајности

У тесту значаја, нулта хипотеза $H_{0}$ се одбацује ако је п-вредност мања или једнака унапред дефинисаној граничној вредности $\alpha$ , која се назива алфа ниво или ниво значајности. $\alpha$ није изведено из података, већ га поставља истраживач пре испитивања података. $\alpha$ се обично поставља на 0,05, мада се понекад користе нижи нивои за алфа. У 2018. години, група статистичара на челу са Данијелом Бенџамином предложила је усвајање вредности од 0,005 као стандардне вредности за статистичку значајност широм света.^[7]

Дистрибуција

Када је нулта хипотеза тачна, ако има облик $H_{0}:\theta =\theta _{0}$ , а основна случајна променљива је континуирана, онда је расподела вероватноће п-вредности униформна на интервалу [0,1]. Насупрот томе, ако је алтернативна хипотеза тачна, дистрибуција зависи од величине узорка и праве вредности параметра који се проучава.^[2]^[8]

Дистрибуција п-вредности за групу студија се понекад назива п-крива.^[9] п-крива се може користити за процену поузданости научне литературе, као што је откривање пристрасности публикације или п-хаковање.^[9]^[10]

Референце

^ Wассерстеин, Роналд L.; Лазар, Ницоле А. (7. 3. 2016). „Тхе АСА'с Статемент он п-Валуес: Цонтеxт, Процесс, анд Пурпосе”. Тхе Америцан Статистициан. 70 (2): 129—133. дои:10.1080/00031305.2016.1154108.
^ ^а ^б Бхаттацхарyа, Бхаскар; Хабтзгхи, ДеСале (2002). „Медиан оф тхе п валуе ундер тхе алтернативе хyпотхесис”. Тхе Америцан Статистициан. 56 (3): 202—6. дои:10.1198/000313002146.
^ Wетзелс, Р.; Матзке, D.; Лее, M. D.; Роудер, Ј. Н.; Иверсон, Г. Ј.; Wагенмакерс, Е. -Ј. (2011). „Статистицал Евиденце ин Еxпериментал Псyцхологy: Ан Емпирицал Цомпарисон Усинг 855 т Тестс”. Перспецтивес он Псyцхологицал Сциенце. 6 (3): 291—298. ПМИД 26168519. дои:10.1177/1745691611406923.
^ Баббие, Е. (2007). Тхе працтице оф социал ресеарцх 11тх ед. Тхомсон Wадсwортх: Белмонт, Цалифорниа.
^ Иоаннидис, Јохн П. А.; Wаре, Јеннифер Ј.; Wагенмакерс, Ериц-Јан; Симонсохн, Ури; Цхамберс, Цхристопхер D.; Буттон, Катхерине С.; Бисхоп, Доротхy V. M.; Носек, Бриан А.; Мунафò, Марцус Р. (јануар 2017). „А манифесто фор репродуцибле сциенце”. Натуре Хуман Бехавиоур (на језику: енглески). стр. 0021. дои:10.1038/с41562-016-0021. Приступљено 9. 5. 2019.
^ АСА Хоусе Стyле
^ Бењамин, Даниел Ј.; Бергер, Јамес О.; Јоханнессон, Магнус; et al. (1. 9. 2017). „Redefine statistical significance”. Nature Human Behaviour. 2 (1): 6—10. PMID 30980045. doi:10.1038/s41562-017-0189-z. eISSN 2397-3374.
^ Hung HM, O'Neill RT, Bauer P, Köhne K (март 1997). „The behavior of the P-value when the alternative hypothesis is true”. Biometrics (Submitted manuscript). 53 (1): 11—22. JSTOR 2533093. PMID 9147587. doi:10.2307/2533093.
^ ^а ^б Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (март 2015). „The extent and consequences of p-hacking in science”. PLOS Biology. 13 (3): e1002106. PMC 4359000  . PMID 25768323. doi:10.1371/journal.pbio.1002106.
^ Simonsohn U, Nelson LD, Simmons JP (новембар 2014). „p-Curve and Effect Size: Correcting for Publication Bias Using Only Significant Results”. Perspectives on Psychological Science. 9 (6): 666—681. PMID 26186117. S2CID 39975518. doi:10.1177/1745691614553988.

Literatura

Pearson, Karl (1900). „On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling” (PDF). Philosophical Magazine. Series 5. 50 (302): 157—175. doi:10.1080/14786440009463897.
Elderton, William Palin (1902). „Tables for Testing the Goodness of Fit of Theory to Observation”. Biometrika. 1 (2): 155—163. doi:10.1093/biomet/1.2.155.
Fisher, Ronald (1925). Statistical Methods for Research Workers. Edinburgh, Scotland: Oliver & Boyd. ISBN 978-0-05-002170-5.
Fisher, Ronald A. (1971) [1935]. The Design of Experiments (9th изд.). Macmillan. ISBN 978-0-02-844690-5.
Fisher, R. A.; Yates, F. (1938). Statistical tables for biological, agricultural and medical research. London, England.
Stigler, Stephen M. (1986). The history of statistics : the measurement of uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
Hubbard, Raymond; Bayarri, M. J. (novembar 2003), P Values are not Error Probabilities (PDF), Архивирано из оригинала (PDF) 4. 9. 2013. г., a working paper that explains the difference between Fisher's evidential p-value and the Neyman–Pearson Type I error rate α.
Hubbard, Raymond; Armstrong, J. Scott (2006). „Why We Don't Really Know What Statistical Significance Means: Implications for Educators” (PDF). Journal of Marketing Education. 28 (2): 114—120. doi:10.1177/0273475306288399. Архивирано из оригинала 18. 5. 2006. г.
Hubbard, Raymond; Lindsay, R. Murray (2008). „Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing” (PDF). Theory & Psychology. 18 (1): 69—88. doi:10.1177/0959354307086923. Архивирано из оригинала (PDF) 21. 10. 2016. г. Приступљено 21. 07. 2019.
Stigler, S. (decembar 2008). „Fisher and the 5% level”. Chance. 21 (4): 12. doi:10.1007/s00144-008-0033-3.
Dallal, Gerard E. (2012). The Little Handbook of Statistical Practice.
Biau, D.J.; Jolles, B.M.; Porcher, R. (mart 2010). „P value and the theory of hypothesis testing: an explanation for new researchers”. Clin Orthop Relat Res. 463 (3): 885—892. PMC 2816758  . PMID 19921345. doi:10.1007/s11999-009-1164-4.
Reinhart, Alex (2015). Statistics Done Wrong: The Woefully Complete Guide. No Starch Press. стр. 176. ISBN 978-1593276201.
Denworth L (октобар 2019). „A Significant Problem: Standard scientific methods are under fire. Will anything change?”. Scientific American. 321 (4): 62—67 (63). „The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results.”
Benjamini, Yoav; De Veaux, Richard D.; Efron, Bradley; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li; Reid, Nancy; Stigler, Stephen M.; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen (2021). „The ASA President's Task Force Statement on Statistical Significance and Replicability”. Annals of Applied Statistics. 15 (3): 1084—1085. doi:10.1214/21-AOAS1501  .
Benjamin, Daniel J.; Berger, James O.; Johannesson, Magnus; et al. (1. 9. 2017). „Редефине статистицал сигнифицанце”. Натуре Хуман Бехавиоур. 2 (1): 6—10. ПМИД 30980045. дои:10.1038/с41562-017-0189-з. еИССН 2397-3374.

Спољашње везе

Free online p-values calculators for various specific tests (chi-square, Fisher's F-test, etc.).
Understanding p-values, including a Java applet that illustrates how the numerical values of p-values can give quite misleading impressions about the truth or falsity of the hypothesis under test.
СтатQуест: П Валуес, цлеарлy еxплаинед на сајту YouTube
СтатQуест: П-валуе питфаллс анд поwер цалцулатионс на сајту YouTube

[ASA-1] Wассерстеин, Роналд L.; Лазар, Ницоле А. (7. 3. 2016). „Тхе АСА'с Статемент он п-Валуес: Цонтеxт, Процесс, анд Пурпосе”. Тхе Америцан Статистициан. 70 (2): 129—133. дои:10.1080/00031305.2016.1154108.

[Bhattacharya2002-2] а ^б Бхаттацхарyа, Бхаскар; Хабтзгхи, ДеСале (2002). „Медиан оф тхе п валуе ундер тхе алтернативе хyпотхесис”. Тхе Америцан Статистициан. 56 (3): 202—6. дои:10.1198/000313002146.

[3] Wетзелс, Р.; Матзке, D.; Лее, M. D.; Роудер, Ј. Н.; Иверсон, Г. Ј.; Wагенмакерс, Е. -Ј. (2011). „Статистицал Евиденце ин Еxпериментал Псyцхологy: Ан Емпирицал Цомпарисон Усинг 855 т Тестс”. Перспецтивес он Псyцхологицал Сциенце. 6 (3): 291—298. ПМИД 26168519. дои:10.1177/1745691611406923.

[4] Баббие, Е. (2007). Тхе працтице оф социал ресеарцх 11тх ед. Тхомсон Wадсwортх: Белмонт, Цалифорниа.

[5] Иоаннидис, Јохн П. А.; Wаре, Јеннифер Ј.; Wагенмакерс, Ериц-Јан; Симонсохн, Ури; Цхамберс, Цхристопхер D.; Буттон, Катхерине С.; Бисхоп, Доротхy V. M.; Носек, Бриан А.; Мунафò, Марцус Р. (јануар 2017). „А манифесто фор репродуцибле сциенце”. Натуре Хуман Бехавиоур (на језику: енглески). стр. 0021. дои:10.1038/с41562-016-0021. Приступљено 9. 5. 2019.

[6] АСА Хоусе Стyле

[BenjaminBergerJohannesson2017-7] Бењамин, Даниел Ј.; Бергер, Јамес О.; Јоханнессон, Магнус; et al. (1. 9. 2017). „Redefine statistical significance”. Nature Human Behaviour. 2 (1): 6—10. PMID 30980045. doi:10.1038/s41562-017-0189-z. eISSN 2397-3374.

[Hung1997-8] Hung HM, O'Neill RT, Bauer P, Köhne K (март 1997). „The behavior of the P-value when the alternative hypothesis is true”. Biometrics (Submitted manuscript). 53 (1): 11—22. JSTOR 2533093. PMID 9147587. doi:10.2307/2533093.

[Head2015-9] а ^б Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (март 2015). „The extent and consequences of p-hacking in science”. PLOS Biology. 13 (3): e1002106. PMC 4359000  . PMID 25768323. doi:10.1371/journal.pbio.1002106.

[Simonsohn2014-10] Simonsohn U, Nelson LD, Simmons JP (новембар 2014). „p-Curve and Effect Size: Correcting for Publication Bias Using Only Significant Results”. Perspectives on Psychological Science. 9 (6): 666—681. PMID 26186117. S2CID 39975518. doi:10.1177/1745691614553988.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]