Testiranje statističkih hipoteza

Statistička hipoteza, ponekad nazvana potvrdnom analizom podataka, hipoteza je koja se može testirati na osnovu posmatranja procesa koji se modeluje pomoću skupa randomnih promenljivih.^[1] Test statističke hipoteze je metoda statističkog zaključivanja. Obično se upoređuju dva skupa statističkih podataka ili se upoređuje skup podataka dobijen uzorkovanjem sa sintetičkim skupom podataka iz idealizovanog modela. Predlaže se hipoteza za statistički odnos između dva skupa podataka, i to se upoređuje kao alternativa idealizovanoj nultoj hipotezi koja ne predlaže odnos između dva skupa podataka. Upoređivanje se smatra statistički značajnim ako je odnos između skupa podataka malo verovatna realizacija nulte hipoteze prema graničnoj verovatnoći - nivou značaja. Testovi hipoteze koriste se kada se određuje koji bi rezultati studije doveli do odbacivanja nulte hipoteze za unapred određeni nivo značaja.

Proces razlikovanja nulte hipoteze i alternativne hipoteze je potpomognut razmatranjem dva konceptualna tipa grešaka. Prvi tip greške nastaje kada je nulta hipoteza pogrešno odbačena. Do drugog tipa greške dolazi kada nulta hipoteza pogrešno nije odbačena. (Ova dva tipa su poznata kao greške tipa 1 i tipa 2.)

Testovi hipoteze zasnovani na statističkoj značajnosti su još jedan način izražavanja intervala poverenja (tačnije, skupova poverenja). Drugim rečima, svaki test hipoteze zasnovan na značaju može se dobiti putem intervala poverenja, i svaki interval poverenja može se dobiti putem testa hipoteze zasnovanog na značaju.^[2]

Testiranje hipoteza zasnovano na značaju najčešći je okvir za statističko testiranje hipoteza. Alternativni okvir za testiranje statističke hipoteze je da se odredi skup statističkih modela, po jedan za svaku razmatranu hipotezu, i da se zatim koristite tehnike odabira modela za odabir najprikladnijeg modela.^[3] Najčešće tehnike odabira zasnivaju se na Akajkovom kriterijumu informacija^[4] ili na Bajesovom faktoru.^[5]^[6]^[7]

Proces testiranja

U statističkoj literaturi testiranje statističkih hipoteza igra fundamentalnu ulogu.^[8] Uobičajeni pristup je sledeći:

Postoji početna hipoteza istraživanja čija istinitost nije poznata.
Prvi korak je navođenje relevantne nulte i alternativne hipoteza. Ovo je važno, jer će pogrešno navođenje hipoteze omesti ostatak procesa.
Drugi korak je razmatranje statističkih pretpostavki koje se daju o uzorku prilikom vršenja testa; na primer, pretpostavke o statističkoj nezavisnosti ili o obliku raspodele opažanja. Ovo je podjednako važno, jer invalidne pretpostavke znače da su rezultati testa invalidni.
Odlučuje se koji test je primeren, i navodi se relevantna testna statistika T.
Izvodi se distribucija testne statistike pod nultom hipotezom iz pretpostavki. U standardnim slučajevima to će biti dobro poznat rezultat. Na primer, testna statistika može da prati Studentovu t distribuciju ili normalnu distribuciju.
Izabere se nivo značaja (α), prag verovatnoće ispod kojeg će nulta hipoteza biti odbačena. Uobičajene vrednosti su 5% i 1%.
Raspodela testne statistike pod nultom hipotezom razgraničava moguće vrednosti T na one za koje je nulta hipoteza odbačena, takozvanu kritičnu regiju, i one za koje nije. Verovatnoća kritične regije je α.
Iz opservacija se izračunavaju t_obs testne statistike T.
Odlučije se da se bilo odbaci nulta hipoteza u korist alternative ili da se ne odbaci. Pravilo za donošenje odluke je da se odbaci nulta hipoteza H₀ ako se uočena vrednost t_obs nalazi u kritičnoj regiji, i da se u suprotnom prihvati ili „ne odbaci” hipoteza.

Često se koristi jedan alternativni proces:

Izračuna se iz opservacija posmatrane vrednosti t_obs testna statistika T.
Izračuna se p-vrednost. Ovo je verovatnoća da je uzorkovana testna statistika, pod nultom hipotezom, bar toliko ekstremna kao što je to uočeno.
Odbacije se nulta hipotezu, u korist alternativne hipoteze, ako i samo ako je p-vrednost manja od praga značaja (odabrane verovatnoće).

Ova dva procesa su ekvivalentna.^[9] Prvi postupak je imao prednost u prošlosti kada su bile dostupne samo tabele testnih statistika na uobičajenim pragovima verovatnoće. To je omogućavalo donošenje odluke bez izračunavanja verovatnoće. Taj postupak je bio adekvatan za upotrebu u nastavi, i pri operativnoj primeni, mada je on deficitaran u pogledu prijavljivanja rezultata. Potonji se proces oslanjao na opsežne tabele ili na računsku podršku koja nije uvek dostupna. Eksplicitno izračunavanje verovatnoće je koristno pri izveštavanju. U današnje vreme se ovi proračuni rutinski izvode odgovarajućim softverom.

Razlika između ova dva procesa je ilustrovana na primeru radioaktivnog kofera (ispod):

„Očitavanje Gajgerovog brojača je 10. Granica je 9. Proverite kofer.”
„Očitavanje Gajgerovog brojača je visoko; 97% sigurnih kofera ima niže očitanje. Ograničenje je 95%. Proverite kofer.”

Prvi izveštaj je adekvatan, drugi daje detaljnije objašnjenje podataka i razlog zašto se kofer proverava.

Važno je da se uoči razlika između prihvatanja nulte hipoteze i jednostavnog neuspeha da se odbaci. Terminologija „neuspeh da se odbaci” naglašava činjenicu da se od početka ispitivanja pretpostavlja da je nulta hipoteza tačna; ako nema dokaza protiv nje, jednostavno se i dalje pretpostavlja da je tačna. Fraza „prihvatiti nultu hipotezu” može da sugeriše da je dokazana naprosto zato što nije opovrgnuta. To je logična zabluda poznata kao argument iz neznanja. Osim ako se ne koristi test sa posebno velikom moći, ideja o „prihvatanju” nulte hipoteze može biti opasna. Uprkos toga ta terminologija je prevalentna u statistici, gde se zapravo razume značenje.

Ovde opisani procesi su sasvim adekvatni za računanje. Oni doduše ozbiljno zanemaruju razmatranja dizajna eksperimenata.^[10]^[11] Posebno je kritično da se pre sprovođenja eksperimenta procene odgovarajuće veličine uzorka.

Frazu „test značaja” skovao je statističar Ronald Fišer.^[12]

Interpretacija

p-vrednost je verovatnoća da će se dati rezultat (ili značajniji result) javiti pod nultom hipotezom. Na primer, recimo da se testira poštenost bacanja novčića (nulta hipoteza). Na nivou značaja od 0,05, očekuje se (pogrešno) da se bacanjem novčića odbaci nulta hipoteza u otprilike 1 od svakih 20 testova. p-vrednost ne daje verovatnoću da je bilo koja hipoteza tačna (što je čest izvor konfuzije).^[13]

Ako je p-vrednost manja od izabranog praga značaja (ili ekvivalentno, ako je posmatrana vrednost testne statistike u kritičnoj regiji), tada se kaže da se nulta hipoteza odbacuje na izabranom nivou značaja. Odbacivanje nulte hipoteze je zaključak. Ovo je poput presude „krivice” u krivičnom postupku: dokazi su dovoljni da odbaci nevinost i tako dokaže krivica. Moguće je da postoji mogućnost prihvatanja alternativne hipoteze (i istraživačke hipoteze).

Ako p-vrednost nije manja od izabranog praga značaja (ili ekvivalentno, ako je posmatrana vrednost testne statistike izvan kritičnog regiona), tada je dokaz nedovoljan da potvrdi zaključak. (Ovo je slično presudi „nije kriv”.) Istraživač obično dodatno razmatra slučajeve gde je p-vrednost blizu nivoa značaja.

Okvir za testiranje hipoteza je analogan matematičkom dokazu kontradikcijom.^[14]

U primeru gospođe koja degustira čaj (dole), Fišer je zahtevao od gospođe da pravilno kategoriše sve šoljice čaja kako bi opravdao zaključak da rezultat verovatno neće biti slučajan. Njegov test je otkrio da ako dama efektivno nasumično nagađa (nulta hipoteza), postoji šansa od 1,4% da će se dogoditi uočeni rezultati.

Da li odbacivanje nulte hipoteze zaista opravdava prihvatanje istraživačke hipoteze je zavisno od strukture hipoteza. Odbacivanje hipoteze da veliki otisak šape potiče od medveda ne dokazuje odmah postojanje Bigfuta. Testiranje hipoteza naglašava odbacivanje, koje se zasniva na verovatnoći, pre nego na prihvatanju, što zahteva dodatne logičke korake.

„Verovatnoća odbacivanja nulte hipoteze je funkcija pet faktora: da li je test jedno- ili dvostruko repan, nivo značajnosti, standardna devijacija, količina devijacije od nulte hipoteze, i broj opažanja.”^[15] Ovi faktori su izvor kritika; faktori pod kontrolom eksperimentatora/analitičara daju rezultatima izgled subjektivnosti.

Upotreba i značaj

Statistika je korisna u analizi većine kolekcija podataka. To važi i za testiranje hipoteza koje mogu opravdati zaključke čak i kada ne postoji naučna teorija. U primeru gospođine degustacije čaja bilo je „očigledno” da ne postoji razlika između (mleko usutog u čaj) i (čaja usutog u mleko). Podaci su bili u suprotnosti sa „očiglednim”.

Primene testiranja hipoteza u stvarnom svetu obuhvataju:^[16]

Testiranje da li više muškaraca nego žena pati od noćnih mora
Utvrđivanje autorstva dokumenata
Procena uticaja punog Meseca na ponašanje
Određivanje dometa u kojem šišmiš može ehom da otkrije insekte
Odlučivanje da li bolnički tepisi dovode do više infekcija
Odabir najboljeg sredstva za prestanak pušenja
Provera da li nalepnice na branicima odražavaju ponašanje vlasnika automobila
Testiranje tvrdnji rukopisnih analitičara

Statističko testiranje hipoteza ima važnu ulogu u celokupnoj statistici i u statističkom zaključivanju. Na primer, Lehman (1992) u pregledu fundamentalnog rada Nejmana i Pirsona (1933) kaže: „Ipak, uprkos njihovih nedostataka, nova paradigma formulisana u dokumentu iz 1933. godine, i mnoštvo razvoja sprovedeno u okviru nje nastavljaju da igraju centralnu ulogu i u teoriji i u praksi statistike, i može se očekivati da će to činiti i u doglednoj budućnosti”.

Testiranje značajnosti bilo je preferentno statističko sredstvo u nekim eksperimentalnim društvenim naukama (preko 90% članaka u časopisu Primenjena psihologija (Journal of Applied Psychology) tokom ranih 1990-ih).^[17] Ostala polja favorizuju procenu parametara (npr. veličinu efekta). Testiranje značajnosti koristi se kao zamena za tradicionalno upoređivanje predviđene vrednosti i eksperimentalnih rezultata u srži naučne metode. Kada je teorija može da predvidi samo znak veze, test usmerene (jednostrane) hipoteze može da bude konfigurisan tako da samo statistički značajan rezultat podržava teoriju. Ovaj oblik ocenjivanja teorije najoštrije je kritikovana primena testiranja hipoteza.

Reference

^ Stuart A., Ord K., Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference & the Linear Model (Arnold) §20.2.
^ Rice, John A. (2007). Mathematical Statistics and Data Analysis (3rd изд.). Thomson Brooks/Cole. §9.3.
^ Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multimodel Inference: A practical information-theoretic approach (2nd изд.). Springer-Verlag. ISBN 978-0-387-95364-9.
^ Akaike, H. (1973), „Information theory and an extension of the maximum likelihood principle”, Ур.: Petrov, B. N.; Csáki, F., 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó, стр. 267—281 . Republished in Kotz, S.; Johnson, N. L., ур. (1992), Breakthroughs in Statistics, I, Springer-Verlag, стр. 610—624 .
^ Goodman, S. (1999). „Toward evidence-based medical statistics. 1: The P value fallacy”. Ann Intern Med. 130 (12): 995—1004. PMID 10383371. doi:10.7326/0003-4819-130-12-199906150-00008.
^ Goodman, S. (1999). „Toward evidence-based medical statistics. 2: The Bayes factor”. Ann Intern Med. 130 (12): 1005—13. PMID 10383350. doi:10.7326/0003-4819-130-12-199906150-00019.
^ Morey, Richard D.; Romeijn, Jan-Willem; Rouder, Jeffrey N. (2016). „The philosophy of Bayes factors and the quantification of statistical evidence”. Journal of Mathematical Psychology. 72: 6—18. doi:10.1016/j.jmp.2015.11.001.
^ Lehmann, E. L.; Romano, Joseph P. (2005). Testing Statistical Hypotheses (3E изд.). New York: Springer. ISBN 978-0-387-98864-1.
^ Triola, Mario (2001). Elementary statistics (8 изд.). Boston: Addison-Wesley. стр. 388. ISBN 978-0-201-61477-0.
^ Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments. I and II (Second изд.). Wiley. ISBN 978-0-470-38551-7.
^ Montgomery, Douglas (2009). Design and analysis of experiments. Hoboken, N.J.: Wiley. ISBN 978-0-470-12866-4.
^ R. A. Fisher (1925).Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.
^ Nuzzo, Regina (2014). „Scientific method: Statistical errors”. Nature. 506.
^ Siegrist, Kyle. „Hypothesis Testing - Introduction”. www.randomservices.org (на језику: енглески). Приступљено 8. 3. 2018.
^ Bakan, David (1966). „The test of significance in psychological research”. Psychological Bulletin. 66 (6): 423—437. doi:10.1037/h0020412.
^ Richard J. Larsen; Donna Fox Stroup (1976). Statistics in the Real World: a book of examples. Macmillan. ISBN 978-0023677205.
^ Hubbard, R.; Parsa, A. R.; Luthy, M. R. (1997). „The Spread of Statistical Significance Testing in Psychology: The Case of the Journal of Applied Psychology”. Theory and Psychology. 7 (4): 545—554. doi:10.1177/0959354397074006.

Literatura

Lehmann E.L. (1992) "Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses". In: Breakthroughs in Statistics, Volume 1, (Eds Kotz, S., Johnson, N.L.), Springer-Verlag. ISBN 0-387-94037-5 (followed by reprinting of the paper)
Neyman, J.; Pearson, E.S. (1933). „On the Problem of the Most Efficient Tests of Statistical Hypotheses”. Philosophical Transactions of the Royal Society A. 231 (694–706): 289—337. doi:10.1098/rsta.1933.0009.

Spoljašnje veze

Hazewinkel Michiel, ур. (2001). „Statistical hypotheses, verification of”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104.
Wilson González, Georgina; Kay Sankaran (10. 9. 1997). „Hypothesis Testing”. Environmental Sampling & Monitoring Primer. Virginia Tech. Архивирано из оригинала 17. 08. 2019. г. Приступљено 17. 08. 2019.
Bayesian critique of classical hypothesis testing
Critique of classical hypothesis testing highlighting long-standing qualms of statisticians
Dallal GE (2007) The Little Handbook of Statistical Practice (A good tutorial)
References for arguments for and against hypothesis testing Архивирано на сајту Wayback Machine (19. јул 2011)
Statistical Tests Overview: How to choose the correct statistical test

Onlajn kalkulatori

MBAStats confidence interval and hypothesis test calculators Архивирано на сајту Wayback Machine (28. април 2021)
Some p-value and hypothesis test calculators.

[1] Stuart A., Ord K., Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference & the Linear Model (Arnold) §20.2.

[2] Rice, John A. (2007). Mathematical Statistics and Data Analysis (3rd изд.). Thomson Brooks/Cole. §9.3.

[3] Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multimodel Inference: A practical information-theoretic approach (2nd изд.). Springer-Verlag. ISBN 978-0-387-95364-9.

[4] Akaike, H. (1973), „Information theory and an extension of the maximum likelihood principle”, Ур.: Petrov, B. N.; Csáki, F., 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó, стр. 267—281 . Republished in Kotz, S.; Johnson, N. L., ур. (1992), Breakthroughs in Statistics, I, Springer-Verlag, стр. 610—624 .

[Goodman1999a-5] Goodman, S. (1999). „Toward evidence-based medical statistics. 1: The P value fallacy”. Ann Intern Med. 130 (12): 995—1004. PMID 10383371. doi:10.7326/0003-4819-130-12-199906150-00008.

[Goodman1999b-6] Goodman, S. (1999). „Toward evidence-based medical statistics. 2: The Bayes factor”. Ann Intern Med. 130 (12): 1005—13. PMID 10383350. doi:10.7326/0003-4819-130-12-199906150-00019.

[7] Morey, Richard D.; Romeijn, Jan-Willem; Rouder, Jeffrey N. (2016). „The philosophy of Bayes factors and the quantification of statistical evidence”. Journal of Mathematical Psychology. 72: 6—18. doi:10.1016/j.jmp.2015.11.001.

[LR-8] Lehmann, E. L.; Romano, Joseph P. (2005). Testing Statistical Hypotheses (3E изд.). New York: Springer. ISBN 978-0-387-98864-1.

[9] Triola, Mario (2001). Elementary statistics (8 изд.). Boston: Addison-Wesley. стр. 388. ISBN 978-0-201-61477-0.

[10] Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments. I and II (Second изд.). Wiley. ISBN 978-0-470-38551-7.

[11] Montgomery, Douglas (2009). Design and analysis of experiments. Hoboken, N.J.: Wiley. ISBN 978-0-470-12866-4.

[Fisher1925-12] R. A. Fisher (1925).Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, 1925, p.43.

[13] Nuzzo, Regina (2014). „Scientific method: Statistical errors”. Nature. 506.

[Siegrist-14] Siegrist, Kyle. „Hypothesis Testing - Introduction”. www.randomservices.org (на језику: енглески). Приступљено 8. 3. 2018.

[bakan66-15] Bakan, David (1966). „The test of significance in psychological research”. Psychological Bulletin. 66 (6): 423—437. doi:10.1037/h0020412.

[larsen-16] Richard J. Larsen; Donna Fox Stroup (1976). Statistics in the Real World: a book of examples. Macmillan. ISBN 978-0023677205.

[hubbard-17] Hubbard, R.; Parsa, A. R.; Luthy, M. R. (1997). „The Spread of Statistical Significance Testing in Psychology: The Case of the Journal of Applied Psychology”. Theory and Psychology. 7 (4): 545—554. doi:10.1177/0959354397074006.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]