F-test

F-test je svaki statistički test u kojem test statistika ima F-distribuciju pod nultom hipotezom. Najčešće se koristi kada se porede statistički modeli koji su prilagođeni skupu podataka, kako bi se identifikovao model koji najbolje odgovara populaciji iz koje su podaci uzorkovani. Tačni „F-testovi“ uglavnom nastaju kada su modeli prilagođeni podacima korišćenjem najmanjih kvadrata. Ime je skovao Džordž V. Snedekor, u čast Ronalda Fišera. Fišer je prvobitno razvio statistiku kao odnos varijanse 1920-ih.^[1]

Uobičajeni primeri uredi

Uobičajeni primeri upotrebe F-testova uključuju proučavanje sledećih slučajeva:

Hipoteza da su srednje vrednosti datog skupa normalno raspoređenih populacija, koje sve imaju istu standardnu devijaciju, jednake. Ovo je možda najpoznatiji F-test i igra važnu ulogu u analizi varijanse (ANOVA).
Hipoteza da se predloženi regresioni model dobro uklapa u podatke.
Hipoteza da skup podataka u regresionoj analizi prati jednostavniji od dva predložena linearna modela koji su ugnežđeni jedan u drugom.

Pored toga, neke statističke procedure, kao što je Šefeov metod za prilagođavanje višestrukih poređenja u linearnim modelima, takođe koriste F-testove.

F-test jednakosti dve varijanse uredi

F-test je osetljiv na nenormalnost.^[2] U analizi varijanse (ANOVA), alternativni testovi uključuju Levenov test, Bartletov test i Braun–Forsajtov test. Međutim, kada se bilo koji od ovih testova sprovede da bi se testirala osnovna pretpostavka homoskedastičnosti (tj. homogenosti varijanse), kao preliminarni korak za testiranje srednjih efekata, postoji povećanje eksperimentalne stope greške tipa I.^[3]

Formula i računanje uredi

Većina F-testova nastaje razmatranjem dekompozicije varijabilnosti u kolekciji podataka u smislu zbira kvadrata. Statistika testa u F-testu je odnos dva skalirana zbira kvadrata koji odražavaju različite izvore varijabilnosti. Ovi zbirovi kvadrata su konstruisani tako da statistika teži da bude veća kada nulta hipoteza nije tačna. Da bi statistika pratila F-distribuciju pod nultom hipotezom, zbir kvadrata treba da bude statistički nezavisan i svaki treba da prati skaliranu χ²-distribuciju. Poslednji uslov je zagarantovan ako su vrednosti podataka nezavisne i normalno raspoređene sa zajedničkom varijansom.

Problemi ANOVA višestrukog poređenja uredi

F-test u jednosmernoj analizi varijanse (ANOVA) se koristi za procenu da li se očekivane vrednosti kvantitativne varijable unutar nekoliko unapred definisanih grupa razlikuju jedna od druge. Na primer, pretpostavimo da medicinsko ispitivanje upoređuje četiri tretmana. ANOVA F-test se može koristiti da se proceni da li je bilo koji od tretmana u proseku bolji ili inferiorniji u odnosu na druge u odnosu na nultu hipotezu da sva četiri tretmana daju isti srednji odgovor. Ovo je primer "omnibus" testa, što znači da se jedan test izvodi da bi se otkrila bilo koja od nekoliko mogućih razlika. Alternativno, mogli bismo da sprovedemo testove u paru među tretmanima (na primer, u primeru medicinskog ispitivanja sa četiri tretmana mogli bismo da sprovedemo šest testova između parova tretmana). Prednost ANOVA F-testa je u tome što ne moramo unapred da specificiramo koji tretmani treba da se poredimo i ne moramo da se prilagođavamo za višestruka poređenja. Nedostatak ANOVA F-testa je u tome što ako odbacimo nultu hipotezu, ne znamo za koje se tretmane može reći da se značajno razlikuju od ostalih, niti, ako se F-test izvodi na nivou α, možemo reći da se tretmanski par sa najvećom srednjom razlikom značajno razlikuje na nivou α.

Formula za jednofaktorsku ANOVA F-test statistiku je

$F={\frac {\text{објашњена варијанса}}{\text{необјашњена варијанса}}},$

„Objašnjena varijansa“ ili „varijabilnost između grupe“ je:

$\sum _{i=1}^{K}n_{i}({\bar {Y}}_{i\cdot }-{\bar {Y}})^{2}/(K-1)$

gde ${\bar {Y}}_{i\cdot }$ označava srednju vrednost uzorka u i-toj grupi, $n_{i}$ je broj zapažanja u i-toj grupi, ${\bar {Y}}$ označava ukupnu sredinu podataka, i $K$ označava broj grupa.

„Neobjašnjiva varijansa“ ili „varijabilnost unutar grupe“ je

$\sum _{i=1}^{K}\sum _{j=1}^{n_{i}}\left(Y_{ij}-{\bar {Y}}_{i\cdot }\right)^{2}/(N-K),$

gde je $Y_{ij}$ posmatranje u i-tom iz $K$ grupe i $N$ je ukupna veličina uzorka. Ova F-statistika prati F-distribuciju sa stepenima slobode $d_{1}=K-1$ i $d_{2}=N-K$ pod nultom hipotezom. Statistika će biti velika ako je varijabilnost između grupa velika u odnosu na varijabilnost unutar grupe, što je malo verovatno da će se desiti ako populacijska sredina svih grupa ima istu vrednost.

Imajte na umu da kada postoje samo dve grupe za jednofaktorsku ANOVA, $F=t^{2}$ gde je t Studentov t statistik.

Reference uredi

^ Lomax, Richard G. (2007). Statistical concepts : a second course (3rd izd.). Mahwah, N.J.: Lawrence Erlbaum Associates. ISBN 978-0-8058-5850-1. OCLC 150257419.
^ Box, G. E. P. (1953). „Non-Normality and Tests on Variances”. Biometrika. 40 (3–4): 318—335. JSTOR 2333350. doi:10.1093/biomet/40.3-4.318. .
^ Sawilowsky, Shlomo (2002-11-01). „Fermat, Schubert, Einstein, and Behrens-Fisher: The Probable Difference Between Two Means When σ_1^2≠σ_2^2”. Journal of Modern Applied Statistical Methods. 1 (2): 461—472. doi:10.22237/jmasm/1036109940.

[1] Lomax, Richard G. (2007). Statistical concepts : a second course (3rd izd.). Mahwah, N.J.: Lawrence Erlbaum Associates. ISBN 978-0-8058-5850-1. OCLC 150257419.

[2] Box, G. E. P. (1953). „Non-Normality and Tests on Variances”. Biometrika. 40 (3–4): 318—335. JSTOR 2333350. doi:10.1093/biomet/40.3-4.318. .

[3] Sawilowsky, Shlomo (2002-11-01). „Fermat, Schubert, Einstein, and Behrens-Fisher: The Probable Difference Between Two Means When σ_1^2≠σ_2^2”. Journal of Modern Applied Statistical Methods. 1 (2): 461—472. doi:10.22237/jmasm/1036109940.

[1]

[2]

[3]