Медијана (статистика)

Медијана се у теорији вероватноће и статистици описује као број који раздваја горњу половину узорка, популације или расподеле вероватноће од доње половине. Медијана коначног низа бројева се може наћи тако што се бројеви поређају по величини, и узме се средњи члан низа. Уколико постоји паран број чланова низа, медијана није јединствена, па се често узима аритметичка средина две вредности које су кандидати за медијану.

Проналажење медијане у скуповима података са парним и непарним бројем вредности

Коначан скуп података бројева

уреди

Медијана коначне листе бројева је „средњи“ број, када су ти бројеви наведени по реду од најмањег до највећег.

Ако скуп података има непаран број посматрања, бира се средњи. На пример, следећа листа од седам бројева,

1, 3, 3, 6, 7, 8, 9

има медијану 6, што је четврта вредност.

Ако скуп података има паран број запажања, не постоји јасна средња вредност и медијана се обично дефинише као аритметичка средина две средње вредности.[1][2] На пример, овај скуп података од 8 бројева

1, 2, 3, 4, 5, 6, 8, 9

има средњу вредност од 4,5, односно  . (У више техничком смислу, ово тумачи медијану као потпуно скраћени средњи опсег).

Генерално, са овом конвенцијом, медијана се може дефинисати на следећи начин: За скуп података   од   елемената, поређаних од најмањег до највећег,

ако је   непарно,  
ако је   парно,  
Поређење уобичајених просека вредности [ 1, 2, 2, 3, 4, 7, 9 ]
Тип Опис Пример Резултат
Аритметичка средина Збир вредности скупа података подељен бројем вредности:   (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Медијана Средња вредност која раздваја већу и мању половину скупа података 1, 2, 2, 3, 4, 7, 9 3
Мод Најчешћа вредност у скупу података 1, 2, 2, 3, 4, 7, 9 2

Формална дефиниција

уреди

Формално, медијана популације је свака вредност таква да је највише половина популације мања од предложене медијане, а највише половина већа од предложене медијане. Као што се види горе, медијане не морају да буду јединствене. Ако сваки скуп садржи мање од половине популације, онда је део популације тачно једнак јединственој медијани.

Медијана је добро дефинисана за све уређене (једнодимензионалне) податке и независна је од било које метрике удаљености. Медијана се стога може применити на класе које су рангиране, али не и нумеричке (нпр. израда средње оцене када су ученици оцењени од А до Ф), иако резултат може бити на пола пута између класа ако постоји паран број случајева.

С друге стране, геометријска медијана је дефинисана у било ком броју димензија. Сродни концепт, у коме је исход приморан да одговара члану узорка, је медоид.

Не постоји широко прихваћена стандардна нотација за медијану, али неки аутори представљају медијану променљиве x било као или као μ1/2[1], понекад и M.[3][4] У било ком од ових случајева, употреба ових или других симбола за медијану треба да буде експлицитно дефинисана када се они уводе.

Медијана је посебан случај других начина сумирања типичних вредности повезаних са статистичком дистрибуцијом: то је 2. квартал, 5. децил и 50. перцентил.

Употребе

уреди

Медијана се може користити као мера локације када се придаје смањени значај екстремним вредностима, обично зато што је дистрибуција искривљена, екстремне вредности нису познате или су одступници непоуздани, тј. могу бити грешке мерења/транскрипције.

На пример, може се размотрити мултисет

1, 2, 2, 2, 3, 14.

Медијан је у овом случају 2 (као и мод), и може се посматрати као боља индикација центра од аритметичке средине од 4, која је већа од свих вредности осим једне. Међутим, широко цитирани емпиријски однос да је средња вредност померена „даље у реп“ дистрибуције од медијане генерално није тачна. Углавном се може рећи да ове две статистике не могу бити „превише удаљене”; видети § Неједнакост средње вредности и медијане у наставку.[5]

Како је медијана заснована на средњим подацима у скупу, није потребно знати вредност екстремних резултата да би се израчунала. На пример, у психолошком тесту који истражује време потребно за решавање проблема, ако мали број људи уопште није успео да реши проблем у датом времену, медијана се ипак може израчунати.[6]

Пошто је медијана једноставна за разумевање и лако се израчунава, а такође је робусна апроксимација средње вредности, она је популарна сумарна статистика у дескриптивној статистици. У овом контексту, постоји неколико избора за меру варијабилности: опсег, интерквартилни опсег, средњу апсолутну девијацију и средњу апсолутну девијацију.

У практичне сврхе, различите мере локације и дисперзије се често пореде на основу тога колико добро се одговарајуће вредности популације могу проценити из узорка података. Медијана, процењена коришћењем медијане узорка, има добра својства у овом погледу. Иако обично то није оптимално ако се претпостави дата дистрибуција популације, њена својства су увек разумно добра. На пример, поређење ефикасности кандидата за процену показује да је средња вредност узорка статистички ефикаснија када — и само када — подаци нису контаминирани подацима из дистрибуција тешког репа или из мешавина дистрибуција. Чак и тада, медијана има ефикасност од 64% у поређењу са средњом минималном варијансом (за велике нормалне узорке), из чега произилази да ће варијанса медијане бити ~50% већа од варијансе средње вредности.[7][8]

Расподеле вероватноће

уреди
 
Геометријска визуализација мода, медијане и средње вредности произвољне функције густине вероватноће[9]

За било коју кумулативну дистрибуцију вероватноће F реалне, медијана је дефинисана као било који реалан број m који задовољава неједнакости

 .

Еквивалентна фраза користи случајну променљиву X дистрибуирану према F:

 

Треба имати на уму да ова дефиниција не захтева да X има апсолутно континуирану дистрибуцију (која има функцију густине вероватноће ƒ), нити захтева дискретну дистрибуцију. У првом случају, неједнакости се могу надоградити на једнакост: медијана задовољава

 .

Свака дистрибуција вероватноће на R има најмање једну медијану, мада у патолошким случајевима може бити више од једне медијане: ако је F константа 1/2 на интервалу (тако да је ƒ=0 тамо), онда је било која вредност тог интервала медијана.

Пример

уреди

За низ бројева 1, 3, 8, 9, 10, аритметичка средина је (1+3+8+9+10)/5 = 6.2, а медијана је 8.

За низ бројева 1, 3, 5, 8, 9, 10, аритметичка средина је (1+3+5+8+9+10)/6 = 6, а медијана је (5+8)/2 = 6.5

Референце

уреди
  1. ^ а б Weisstein, Eric W. „Statistical Median”. MathWorld. 
  2. ^ Simon, Laura J.; "Descriptive statistics" Архивирано 2010-07-30 на сајту Wayback Machine, Statistical Education Resource Kit, Pennsylvania State Department of Statistics
  3. ^ David J. Sheskin (27. 8. 2003). Handbook of Parametric and Nonparametric Statistical Procedures: Third Edition. CRC Press. стр. 7—. ISBN 978-1-4200-3626-8. Приступљено 25. 2. 2013. 
  4. ^ Derek Bissell (1994). Statistical Methods for Spc and Tqm. CRC Press. стр. 26—. ISBN 978-0-412-39440-9. Приступљено 25. 2. 2013. 
  5. ^ Paul T. von Hippel (2005). „Mean, Median, and Skew: Correcting a Textbook Rule”. Journal of Statistics Education, V13n2. Архивирано из оригинала 20. 02. 2016. г. Приступљено 18. 12. 2021. 
  6. ^ Robson, Colin (1994). Experiment, Design and Statistics in Psychology. Penguin. стр. 42–45. ISBN 0-14-017648-9. 
  7. ^ Williams, D. (2001). Weighing the Odds . Cambridge University Press. стр. 165. ISBN 052100618X. 
  8. ^ Maindonald, John; Braun, W. John (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach (на језику: енглески). Cambridge University Press. стр. 104. ISBN 978-1-139-48667-5. 
  9. ^ „AP Statistics Review - Density Curves and the Normal Distributions”. Архивирано из оригинала 8. 4. 2015. г. Приступљено 16. 3. 2015. 

Литература

уреди

Додатна литература

уреди
  • „Fast Computation of the Median by Successive Binning”. arXiv:abs/0806.3301  Проверите вредност параметра |arxiv= (помоћ). 

Спољашње везе

уреди