Тестирање статистичких хипотеза

Статистичка хипотеза, понекад названа потврдном анализом података, хипотеза је која се може тестирати на основу посматрања процеса који се моделује помоћу скупа рандомних променљивих.^[1] Тест статистичке хипотезе је метода статистичког закључивања. Обично се упоређују два скупа статистичких података или се упоређује скуп података добијен узорковањем са синтетичким скупом података из идеализованог модела. Предлаже се хипотеза за статистички однос између два скупа података, и то се упоређује као алтернатива идеализованој нултој хипотези која не предлаже однос између два скупа података. Упоређивање се сматра статистички значајним ако је однос између скупа података мало вероватна реализација нулте хипотезе према граничној вероватноћи - нивоу значаја. Тестови хипотезе користе се када се одређује који би резултати студије довели до одбацивања нулте хипотезе за унапред одређени ниво значаја.

Процес разликовања нулте хипотезе и алтернативне хипотезе је потпомогнут разматрањем два концептуална типа грешака. Први тип грешке настаје када је нулта хипотеза погрешно одбачена. До другог типа грешке долази када нулта хипотеза погрешно није одбачена. (Ова два типа су позната као грешке типа 1 и типа 2.)

Тестови хипотезе засновани на статистичкој значајности су још један начин изражавања интервала поверења (тачније, скупова поверења). Другим речима, сваки тест хипотезе заснован на значају може се добити путем интервала поверења, и сваки интервал поверења може се добити путем теста хипотезе заснованог на значају.^[2]

Тестирање хипотеза засновано на значају најчешћи је оквир за статистичко тестирање хипотеза. Алтернативни оквир за тестирање статистичке хипотезе је да се одреди скуп статистичких модела, по један за сваку разматрану хипотезу, и да се затим користите технике одабира модела за одабир најприкладнијег модела.^[3] Најчешће технике одабира заснивају се на Акајковом критеријуму информација^[4] или на Бајесовом фактору.^[5]^[6]^[7]

Процес тестирања

У статистичкој литератури тестирање статистичких хипотеза игра фундаменталну улогу.^[8] Уобичајени приступ је следећи:

Постоји почетна хипотеза истраживања чија истинитост није позната.
Први корак је навођење релевантне нулте и алтернативне хипотеза. Ово је важно, јер ће погрешно навођење хипотезе омести остатак процеса.
Други корак је разматрање статистичких претпоставки које се дају о узорку приликом вршења теста; на пример, претпоставке о статистичкој независности или о облику расподеле опажања. Ово је подједнако важно, јер инвалидне претпоставке значе да су резултати теста инвалидни.
Одлучује се који тест је примерен, и наводи се релевантна тестна статистика Т.
Изводи се дистрибуција тестне статистике под нултом хипотезом из претпоставки. У стандардним случајевима то ће бити добро познат резултат. На пример, тестна статистика може да прати Студентову т дистрибуцију или нормалну дистрибуцију.
Изабере се ниво значаја (α), праг вероватноће испод којег ће нулта хипотеза бити одбачена. Уобичајене вредности су 5% и 1%.
Расподела тестне статистике под нултом хипотезом разграничава могуће вредности Т на оне за које је нулта хипотеза одбачена, такозвану критичну регију, и оне за које није. Вероватноћа критичне регије је α.
Из опсервација се израчунавају т_обс тестне статистике Т.
Одлучије се да се било одбаци нулта хипотеза у корист алтернативе или да се не одбаци. Правило за доношење одлуке је да се одбаци нулта хипотеза Х₀ ако се уочена вредност т_обс налази у критичној регији, и да се у супротном прихвати или „не одбаци” хипотеза.

Често се користи један алтернативни процес:

Израчуна се из опсервација посматране вредности т_обс тестна статистика Т.
Израчуна се p-вредност. Ово је вероватноћа да је узоркована тестна статистика, под нултом хипотезом, бар толико екстремна као што је то уочено.
Одбације се нулта хипотезу, у корист алтернативне хипотезе, ако и само ако је p-вредност мања од прага значаја (одабране вероватноће).

Ова два процеса су еквивалентна.^[9] Први поступак је имао предност у прошлости када су биле доступне само табеле тестних статистика на уобичајеним праговима вероватноће. То је омогућавало доношење одлуке без израчунавања вероватноће. Тај поступак је био адекватан за употребу у настави, и при оперативној примени, мада је он дефицитаран у погледу пријављивања резултата. Потоњи се процес ослањао на опсежне табеле или на рачунску подршку која није увек доступна. Експлицитно израчунавање вероватноће је користно при извештавању. У данашње време се ови прорачуни рутински изводе одговарајућим софтвером.

Разлика између ова два процеса је илустрована на примеру радиоактивног кофера (испод):

„Очитавање Гајгеровог бројача је 10. Граница је 9. Проверите кофер.”
„Очитавање Гајгеровог бројача је високо; 97% сигурних кофера има ниже очитање. Ограничење је 95%. Проверите кофер.”

Први извештај је адекватан, други даје детаљније објашњење података и разлог зашто се кофер проверава.

Важно је да се уочи разлика између прихватања нулте хипотезе и једноставног неуспеха да се одбаци. Терминологија „неуспех да се одбаци” наглашава чињеницу да се од почетка испитивања претпоставља да је нулта хипотеза тачна; ако нема доказа против ње, једноставно се и даље претпоставља да је тачна. Фраза „прихватити нулту хипотезу” може да сугерише да је доказана напросто зато што није оповргнута. То је логична заблуда позната као аргумент из незнања. Осим ако се не користи тест са посебно великом моћи, идеја о „прихватању” нулте хипотезе може бити опасна. Упркос тога та терминологија је превалентна у статистици, где се заправо разуме значење.

Овде описани процеси су сасвим адекватни за рачунање. Они додуше озбиљно занемарују разматрања дизајна експеримената.^[10]^[11] Посебно је критично да се пре спровођења експеримента процене одговарајуће величине узорка.

Фразу „тест значаја” сковао је статистичар Роналд Фишер.^[12]

Интерпретација

p-вредност је вероватноћа да ће се дати резултат (или значајнији ресулт) јавити под нултом хипотезом. На пример, рецимо да се тестира поштеност бацања новчића (нулта хипотеза). На нивоу значаја од 0,05, очекује се (погрешно) да се бацањем новчића одбаци нулта хипотеза у отприлике 1 од сваких 20 тестова. p-вредност не даје вероватноћу да је било која хипотеза тачна (што је чест извор конфузије).^[13]

Ако је p-вредност мања од изабраног прага значаја (или еквивалентно, ако је посматрана вредност тестне статистике у критичној регији), тада се каже да се нулта хипотеза одбацује на изабраном нивоу значаја. Одбацивање нулте хипотезе је закључак. Ово је попут пресуде „кривице” у кривичном поступку: докази су довољни да одбаци невиност и тако докаже кривица. Могуће је да постоји могућност прихватања алтернативне хипотезе (и истраживачке хипотезе).

Ако p-вредност није мања од изабраног прага значаја (или еквивалентно, ако је посматрана вредност тестне статистике изван критичног региона), тада је доказ недовољан да потврди закључак. (Ово је слично пресуди „није крив”.) Истраживач обично додатно разматра случајеве где је p-вредност близу нивоа значаја.

Оквир за тестирање хипотеза је аналоган математичком доказу контрадикцијом.^[14]

У примеру госпође која дегустира чај (доле), Фишер је захтевао од госпође да правилно категорише све шољице чаја како би оправдао закључак да резултат вероватно неће бити случајан. Његов тест је открио да ако дама ефективно насумично нагађа (нулта хипотеза), постоји шанса од 1,4% да ће се догодити уочени резултати.

Да ли одбацивање нулте хипотезе заиста оправдава прихватање истраживачке хипотезе је зависно од структуре хипотеза. Одбацивање хипотезе да велики отисак шапе потиче од медведа не доказује одмах постојање Бигфута. Тестирање хипотеза наглашава одбацивање, које се заснива на вероватноћи, пре него на прихватању, што захтева додатне логичке кораке.

„Вероватноћа одбацивања нулте хипотезе је функција пет фактора: да ли је тест једно- или двоструко репан, ниво значајности, стандардна девијација, количина девијације од нулте хипотезе, и број опажања.”^[15] Ови фактори су извор критика; фактори под контролом експериментатора/аналитичара дају резултатима изглед субјективности.

Употреба и значај

Статистика је корисна у анализи већине колекција података. То важи и за тестирање хипотеза које могу оправдати закључке чак и када не постоји научна теорија. У примеру госпођине дегустације чаја било је „очигледно” да не постоји разлика између (млеко усутог у чај) и (чаја усутог у млеко). Подаци су били у супротности са „очигледним”.

Примене тестирања хипотеза у стварном свету обухватају:^[16]

Тестирање да ли више мушкараца него жена пати од ноћних мора
Утврђивање ауторства докумената
Процена утицаја пуног Месеца на понашање
Одређивање домета у којем шишмиш може ехом да открије инсекте
Одлучивање да ли болнички теписи доводе до више инфекција
Одабир најбољег средства за престанак пушења
Провера да ли налепнице на браницима одражавају понашање власника аутомобила
Тестирање тврдњи рукописних аналитичара

Статистичко тестирање хипотеза има важну улогу у целокупној статистици и у статистичком закључивању. На пример, Лехман (1992) у прегледу фундаменталног рада Нејмана и Пирсона (1933) каже: „Ипак, упркос њихових недостатака, нова парадигма формулисана у документу из 1933. године, и мноштво развоја спроведено у оквиру ње настављају да играју централну улогу и у теорији и у пракси статистике, и може се очекивати да ће то чинити и у догледној будућности”.

Тестирање значајности било је преферентно статистичко средство у неким експерименталним друштвеним наукама (преко 90% чланака у часопису Примењена психологија (Journal of Applied Psychology) током раних 1990-их).^[17] Остала поља фаворизују процену параметара (нпр. величину ефекта). Тестирање значајности користи се као замена за традиционално упоређивање предвиђене вредности и експерименталних резултата у сржи научне методе. Када је теорија може да предвиди само знак везе, тест усмерене (једностране) хипотезе може да буде конфигурисан тако да само статистички значајан резултат подржава теорију. Овај облик оцењивања теорије најоштрије је критикована примена тестирања хипотеза.

Референце

^ Стуарт А., Орд К., Арнолд С. (1999), Кендалл'с Адванцед Тхеорy оф Статистицс: Волуме 2А—Цлассицал Инференце & тхе Линеар Модел (Арнолд) §20.2.
^ Рице, Јохн А. (2007). Матхематицал Статистицс анд Дата Аналyсис (3рд изд.). Тхомсон Броокс/Цоле. §9.3.
^ Бурнхам, К. П.; Андерсон, D. Р. (2002). Модел Селецтион анд Мултимодел Инференце: А працтицал информатион-тхеоретиц аппроацх (2нд изд.). Спрингер-Верлаг. ИСБН 978-0-387-95364-9.
^ Акаике, Х. (1973), „Информатион тхеорy анд ан еxтенсион оф тхе маxимум ликелихоод принципле”, Ур.: Петров, Б. Н.; Цсáки, Ф., 2нд Интернатионал Сyмпосиум он Информатион Тхеорy, Тсахкадсор, Армениа, УССР, Септембер 2-8, 1971, Будапест: Акадéмиаи Киадó, стр. 267—281 . Републисхед ин Котз, С.; Јохнсон, Н. L., ур. (1992), Бреактхроугхс ин Статистицс, I, Спрингер-Верлаг, стр. 610—624 .
^ Гоодман, С. (1999). „Тоwард евиденце-басед медицал статистицс. 1: Тхе П валуе фаллацy”. Анн Интерн Мед. 130 (12): 995—1004. ПМИД 10383371. дои:10.7326/0003-4819-130-12-199906150-00008.
^ Гоодман, С. (1999). „Тоwард евиденце-басед медицал статистицс. 2: Тхе Баyес фацтор”. Анн Интерн Мед. 130 (12): 1005—13. ПМИД 10383350. дои:10.7326/0003-4819-130-12-199906150-00019.
^ Мореy, Рицхард D.; Ромеијн, Јан-Wиллем; Роудер, Јеффреy Н. (2016). „Тхе пхилосопхy оф Баyес фацторс анд тхе qуантифицатион оф статистицал евиденце”. Јоурнал оф Матхематицал Псyцхологy. 72: 6—18. дои:10.1016/ј.јмп.2015.11.001.
^ Лехманн, Е. L.; Романо, Јосепх П. (2005). Тестинг Статистицал Хyпотхесес (3Е изд.). Неw Yорк: Спрингер. ИСБН 978-0-387-98864-1.
^ Триола, Марио (2001). Елементарy статистицс (8 изд.). Бостон: Аддисон-Wеслеy. стр. 388. ИСБН 978-0-201-61477-0.
^ Хинкелманн, Клаус; Кемптхорне, Осцар (2008). Десигн анд Аналyсис оф Еxпериментс. I анд II (Сецонд изд.). Wилеy. ИСБН 978-0-470-38551-7.
^ Монтгомерy, Доуглас (2009). Десигн анд аналyсис оф еxпериментс. Хобокен, Н.Ј.: Wилеy. ИСБН 978-0-470-12866-4.
^ Р. А. Фисхер (1925).Статистицал Метходс фор Ресеарцх Wоркерс, Единбургх: Оливер анд Боyд, 1925, п.43.
^ Нуззо, Регина (2014). „Сциентифиц метход: Статистицал еррорс”. Натуре. 506.
^ Сиегрист, Кyле. „Хyпотхесис Тестинг - Интродуцтион”. www.рандомсервицес.орг (на језику: енглески). Приступљено 8. 3. 2018.
^ Бакан, Давид (1966). „Тхе тест оф сигнифицанце ин псyцхологицал ресеарцх”. Псyцхологицал Буллетин. 66 (6): 423—437. дои:10.1037/х0020412.
^ Рицхард Ј. Ларсен; Донна Фоx Строуп (1976). Статистицс ин тхе Реал Wорлд: а боок оф еxамплес. Мацмиллан. ИСБН 978-0023677205.
^ Хуббард, Р.; Парса, А. Р.; Лутхy, M. Р. (1997). „Тхе Спреад оф Статистицал Сигнифицанце Тестинг ин Псyцхологy: Тхе Цасе оф тхе Јоурнал оф Апплиед Псyцхологy”. Тхеорy анд Псyцхологy. 7 (4): 545—554. дои:10.1177/0959354397074006.

Литература

Лехманн Е.L. (1992) "Интродуцтион то Неyман анд Пеарсон (1933) Он тхе Проблем оф тхе Мост Еффициент Тестс оф Статистицал Хyпотхесес". Ин: Бреактхроугхс ин Статистицс, Волуме 1, (Едс Котз, С., Јохнсон, Н.L.), Спрингер-Верлаг. ISBN 0-387-94037-5 (фоллоwед бy репринтинг оф тхе папер)
Неyман, Ј.; Пеарсон, Е.С. (1933). „Он тхе Проблем оф тхе Мост Еффициент Тестс оф Статистицал Хyпотхесес”. Пхилосопхицал Трансацтионс оф тхе Роyал Социетy А. 231 (694–706): 289—337. дои:10.1098/рста.1933.0009.

Спољашње везе

Хазеwинкел Мицхиел, ур. (2001). „Статистицал хyпотхесес, верифицатион оф”. Енцyцлопаедиа оф Матхематицс. Спрингер. ISBN 978-1556080104.
Wilson González, Georgina; Kay Sankaran (10. 9. 1997). „Hypothesis Testing”. Environmental Sampling & Monitoring Primer. Virginia Tech. Архивирано из оригинала 17. 08. 2019. г. Приступљено 17. 08. 2019.
Bayesian critique of classical hypothesis testing
Critique of classical hypothesis testing highlighting long-standing qualms of statisticians
Dallal GE (2007) The Little Handbook of Statistical Practice (A good tutorial)
References for arguments for and against hypothesis testing Архивирано на сајту Wayback Machine (19. јул 2011)
Statistical Tests Overview: How to choose the correct statistical test

Онлајн калкулатори

MBAStats confidence interval and hypothesis test calculators Архивирано на сајту Wayback Machine (28. април 2021)
Some p-value and hypothesis test calculators.

[1] Стуарт А., Орд К., Арнолд С. (1999), Кендалл'с Адванцед Тхеорy оф Статистицс: Волуме 2А—Цлассицал Инференце & тхе Линеар Модел (Арнолд) §20.2.

[2] Рице, Јохн А. (2007). Матхематицал Статистицс анд Дата Аналyсис (3рд изд.). Тхомсон Броокс/Цоле. §9.3.

[3] Бурнхам, К. П.; Андерсон, D. Р. (2002). Модел Селецтион анд Мултимодел Инференце: А працтицал информатион-тхеоретиц аппроацх (2нд изд.). Спрингер-Верлаг. ИСБН 978-0-387-95364-9.

[4] Акаике, Х. (1973), „Информатион тхеорy анд ан еxтенсион оф тхе маxимум ликелихоод принципле”, Ур.: Петров, Б. Н.; Цсáки, Ф., 2нд Интернатионал Сyмпосиум он Информатион Тхеорy, Тсахкадсор, Армениа, УССР, Септембер 2-8, 1971, Будапест: Акадéмиаи Киадó, стр. 267—281 . Републисхед ин Котз, С.; Јохнсон, Н. L., ур. (1992), Бреактхроугхс ин Статистицс, I, Спрингер-Верлаг, стр. 610—624 .

[Goodman1999a-5] Гоодман, С. (1999). „Тоwард евиденце-басед медицал статистицс. 1: Тхе П валуе фаллацy”. Анн Интерн Мед. 130 (12): 995—1004. ПМИД 10383371. дои:10.7326/0003-4819-130-12-199906150-00008.

[Goodman1999b-6] Гоодман, С. (1999). „Тоwард евиденце-басед медицал статистицс. 2: Тхе Баyес фацтор”. Анн Интерн Мед. 130 (12): 1005—13. ПМИД 10383350. дои:10.7326/0003-4819-130-12-199906150-00019.

[7] Мореy, Рицхард D.; Ромеијн, Јан-Wиллем; Роудер, Јеффреy Н. (2016). „Тхе пхилосопхy оф Баyес фацторс анд тхе qуантифицатион оф статистицал евиденце”. Јоурнал оф Матхематицал Псyцхологy. 72: 6—18. дои:10.1016/ј.јмп.2015.11.001.

[LR-8] Лехманн, Е. L.; Романо, Јосепх П. (2005). Тестинг Статистицал Хyпотхесес (3Е изд.). Неw Yорк: Спрингер. ИСБН 978-0-387-98864-1.

[9] Триола, Марио (2001). Елементарy статистицс (8 изд.). Бостон: Аддисон-Wеслеy. стр. 388. ИСБН 978-0-201-61477-0.

[10] Хинкелманн, Клаус; Кемптхорне, Осцар (2008). Десигн анд Аналyсис оф Еxпериментс. I анд II (Сецонд изд.). Wилеy. ИСБН 978-0-470-38551-7.

[11] Монтгомерy, Доуглас (2009). Десигн анд аналyсис оф еxпериментс. Хобокен, Н.Ј.: Wилеy. ИСБН 978-0-470-12866-4.

[Fisher1925-12] Р. А. Фисхер (1925).Статистицал Метходс фор Ресеарцх Wоркерс, Единбургх: Оливер анд Боyд, 1925, п.43.

[13] Нуззо, Регина (2014). „Сциентифиц метход: Статистицал еррорс”. Натуре. 506.

[Siegrist-14] Сиегрист, Кyле. „Хyпотхесис Тестинг - Интродуцтион”. www.рандомсервицес.орг (на језику: енглески). Приступљено 8. 3. 2018.

[bakan66-15] Бакан, Давид (1966). „Тхе тест оф сигнифицанце ин псyцхологицал ресеарцх”. Псyцхологицал Буллетин. 66 (6): 423—437. дои:10.1037/х0020412.

[larsen-16] Рицхард Ј. Ларсен; Донна Фоx Строуп (1976). Статистицс ин тхе Реал Wорлд: а боок оф еxамплес. Мацмиллан. ИСБН 978-0023677205.

[hubbard-17] Хуббард, Р.; Парса, А. Р.; Лутхy, M. Р. (1997). „Тхе Спреад оф Статистицал Сигнифицанце Тестинг ин Псyцхологy: Тхе Цасе оф тхе Јоурнал оф Апплиед Псyцхологy”. Тхеорy анд Псyцхологy. 7 (4): 545—554. дои:10.1177/0959354397074006.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]