Diskretna uniformna raspodela

Diskretna uniformna raspodela
	Funkcija verovatnoće; n = 5 gde je n = b − a + 1
	Funkcija kumulativne raspodele;
Notacija	ili
Parametri	; ;
Nositelj
pmf
CDF
Prosek
Medijana
Modus	N/A
Varijansa
Koef. asimetrije
Kurtoza
Entropija
MGF
CF

U teoriji verovatnoće i statistici, diskretna uniformna raspodela je simetrična raspodela verovatnoće pri čemu je za konačni broj vrednosti podjednako verovatno da budu uočene; svaka od n vrednosti ima jednaku verovatnoću 1/n. Drugim rečima „diskretna uniformna distribucija” je „poznati, konačni broj ishoda koji su podjednako verovatni da se dogode”.

Jednostavan primer diskretne uniformne distribucije je bacanje kocke. Moguće vrednosti su 1, 2, 3, 4, 5, 6, i svaki put kada se baci kocka verovatnoća datih rezultata je 1/6. Ako se bacaju dve kocke i dodaju njihove vrednosti, rezultirajuća raspodjela više nije uniformna, jer svi zbirovi nemaju jednaku verovatnoću.

Sama diskretna uniformna raspodela je inherentno neparametarska. Prikladno je, međutim, prikazati njene vrednosti generalno svim celim brojevima u intervalu [a,b], tako da a i b postaju glavni parametri distribucije (često se jednostavno razmatra interval [1, n] sa jednim parametrom n). Ovim konvencijama može se izraziti funkcija kumulativne distribucije (engl. cumulative distribution function - CDF) diskretne uniformne distribucije za bilo koje k ∈ [a,b], kao

F(k;a,b)={\frac {\lfloor k\rfloor -a+1}{b-a+1}}

Procena maksimuma

Uzorak k opažanja dobijen je iz uniformne distribucije celih brojeva $1,2,\dotsc ,N$ , s ciljem procene nepoznatog maksimuma N. Ovaj problem je opšte poznat kao nemački tenkovski problem, po primeni maksimalne procene na procenu nemačke proizvodnje tenkova tokom Drugog svetskog rata.^[1]^[2]^[3]^[4]^[5]

Nepristrasni procenjivač uniformne minimalne varijanse (engl. Uniformly minimum variance unbiased estimator - UMVU) za maksimum je dat sa^[6]^[7]

{\hat {N}}={\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1

gde je m maksimum uzorka i k je veličina uzorka, uzorkovanog bez zamene.^[8] Ovo se može smatrati veoma jednostavnim slučajem procenе maksimalnog razmaka.

To ima varijansu od^[8]

{\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ za male uzorke }}k\ll N

tako da je standardna devijacija približno ${\tfrac {N}{k}}$ , (populaciona) prosečna veličina razmaka između uzoraka; uporedite sa ${\tfrac {m}{k}}$ iznad.

Maksimum uzorka je procenjivač maksimalne verovatnoće za populacioni maksimum, mada, kao što je gore diskutovano, on je pristrasan.

Ako uzorci nisu numerisani, već su prepoznatljivi ili markirani, umesto toga se može proceniti veličina populacije metodom označavanja i ponovnog hvatanja.^[9]^[10]

Derivacija

Za neki ceo broj m takav da je k ≤ m ≤ N, verovatnoća da će maksimalni uzorak biti jednak m može se izračunati na sledeći način. Broj različitih grupa od k tenkova koji se mogu načiniti od ukupno N tenkova dat je binomnim koeficijentom ${\tbinom {N}{k}}$ . Pošto se u ovom načinu brojanja permutacija tenkova broji samo jednom, mogu se urediti serijski brojevi i uzeti u obzir maksimum svakog uzorka. Da bi se izračunala verovatnoća, mora se odrediti broj poređanih uzoraka koji se može formirati sa poslednjim elementom jednakim m, i svi ostali k-1 tenkovi manji ili jednaki m-1. Broj uzoraka sa k-1 tenkova koji se mogu napraviti od ukupno m-1 tenkova dat je binomnim koeficijentom ${\tbinom {m-1}{k-1}}$ , tako da je verovatnoća da je maksimum m jednaka $P(m)={\tbinom {m-1}{k-1}}{\big /}{\tbinom {N}{k}}$ .

Ako je dat ukupn broj N i veličina uzorka k, očekivana vrednost maksimuma uzorka je

{\begin{aligned}\mu =\mathrm {E} [m]&=\sum _{m=k}^{N}m{\frac {\tbinom {m-1}{k-1}}{\tbinom {N}{k}}}\\&={\frac {1}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}{\frac {m!}{(m-k)!}}\\&={\frac {k!}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}{\tbinom {m}{k}}\\&=k{\frac {\tbinom {N+1}{k+1}}{\tbinom {N}{k}}}\\&={\frac {k(N+1)}{k+1}},\end{aligned}}

gde je korišten identitet hokejaškog štapa $\sum _{m=k}^{N}{\tbinom {m}{k}}={\tbinom {N+1}{k+1}}$ .

Iz ove jednačine, nepoznati kvantitet N se može izraziti u obliku očekivanja i veličine uzorka kao

{\begin{aligned}N&=\mu \left(1+k^{-1}\right)-1.\end{aligned}}

Iz linearnosti očekivanja se dobija da je

{\begin{aligned}\mu \left(1+k^{-1}\right)-1&=\mathrm {E} \left[m\left(1+k^{-1}\right)-1\right],\end{aligned}}

i stoga se nepristrasni procenjivač od N dobija zamenjivanjem očekivanja opservacijom,

{\begin{aligned}{\hat {N}}&=m\left(1+k^{-1}\right)-1.\end{aligned}}

Osim što je nepristrasan ovaj procenjivač takođe dostiže minimalnu varijansu. Da bi se to pokazalo, prvo treba napomenuti da je maksimalan uzorak dovoljna statistička za maksimum populacije, jer je verovatnoća P(m;N) izražena samo kao funkcija od m. Zatim se mora pokazati da su statistike za m takođe kompletne statistike, i posebna vrsta dovoljne statistike. Zatim Lehman-Šefeova teorema implicira da je ${\hat {N}}$ minimalna procena nepristrasne varijanse od N.^[11]

Varijansa procenjivača izračunava se iz varijance maksimuma uzorka

{\begin{aligned}\mathrm {Var} [{\hat {N}}]&={\frac {(k+1)^{2}}{k^{2}}}\mathrm {Var} [m].\end{aligned}}

Varijanse maksimuma se zatim izračunava iz očekivanih vrednosti od $m$ i $m^{2}$ . Izračunavanje očekivane vrednosti od $m^{2}$ je,

{\begin{aligned}\mathrm {E} [m^{2}]&=\sum _{m=k}^{N}m^{2}{\frac {\tbinom {m-1}{k-1}}{\tbinom {N}{k}}}\\&={\frac {1}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}m{\frac {m!}{(m-k)!}}\\&={\frac {1}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}(m+1-1){\frac {m!}{(m-k)!}}\\&={\frac {1}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}{\frac {(m+1)!}{(m-k)!}}-{\frac {1}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}{\frac {m!}{(m-k)!}}\end{aligned}}

gde je drugi član očekivana vrednost od $m$ . Prvi član se može izraziti tako da zavisi od k i N,

{\begin{aligned}{\frac {1}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}{\frac {(m+1)!}{(m-k)!}}&={\frac {(k+1)!}{(k-1)!{\tbinom {N}{k}}}}\sum _{m=k}^{N}{\tbinom {m+1}{k+1}}\\&={\frac {k(k+1)}{\tbinom {N}{k}}}\sum _{n=k+1}^{N+1}{\tbinom {n}{k+1}}\\&={\frac {k(k+1)}{\tbinom {N}{k}}}{\tbinom {N+2}{k+2}}\\&={\frac {k(N+2)(N+1)}{(k+2)}}\end{aligned}}

pri čemu je napravljena zamena $n=m+1$ i korišten je identitet hokejaškog štapa. Zamenjujući ovaj rezultat i očekivanje od $m$ u jednačini od $E[m^{2}]$ ,

{\begin{aligned}\mathrm {E} [m^{2}]&={\frac {k(N+2)(N+1)}{(k+2)}}-{\frac {k(N+1)}{k+1}}\\&=k(N+1){\Big (}{\frac {N+2}{k+2}}-{\frac {1}{k+1}}{\Big )}\\&={\frac {k(N+1)(kN+k+N)}{(k+1)(k+2)}}\end{aligned}}

Variansa od $m$ se zatim dobija,

{\begin{aligned}\mathrm {Var} [m]&=\mathrm {E} [m^{2}]-\mathrm {E} [m]^{2}\\&={\frac {k(N+1)}{(k+1)}}{\Big (}{\frac {kN+k+N}{k+2}}-{\frac {k(N+1)}{k+1}}{\Big )}\\&={\frac {k(N+1)}{(k+1)}}{\frac {(N-k)}{(k+2)(k+1)}}\\&={\frac {k(N+1)(N-k)}{(k+1)^{2}(k+2)}}\end{aligned}}

Konačno varijansa procenjivača ${\hat {N}}$ se može izračunati,

{\begin{aligned}\mathrm {Var} [{\hat {N}}]&={\frac {(k+1)^{2}}{k^{2}}}\mathrm {Var} [m]\\&={\frac {(k+1)^{2}}{k^{2}}}{\frac {k(N+1)(N-k)}{(k+1)^{2}(k+2)}}\\&={\frac {(N+1)(N-k)}{k(k+2)}}.\end{aligned}}

Vidi još

Reference

^ „Gavyn Davies does the maths – How a statistical formula won the war”. The Guardian. 20. 7. 2006. Приступљено 6. 7. 2014.
^ Matthews, Robert (23. 5. 1998), „Data sleuths go to war, sidebar in feature "Hidden truths"”, New Scientist, Архивирано из оригинала 18. 4. 2001. г.
^ Bob Carruthers (1. 3. 2012). Panther V in Combat. Coda Books Ltd. стр. 94—. ISBN 978-1-908538-15-4.
^ Johnson, Roger (2006), „Estimating the Size of a Population”, Getting the Best from Teaching Statistics, Архивирано из оригинала (PDF) 20. 11. 2008. г.
^ Joyce, Smart. „German Tank Problem”. Logan High School. Архивирано из оригинала 24. 4. 2012. г. Приступљено 8. 7. 2014.
^ Keener, Robert W. (2006). Statistical Theory: Notes for a Course in Theoretical Statistics. Springer. стр. 47—48, 57—58.
^ Voinov V. G., Nikulin M.S. (1993). Unbiased estimators and their applications, Vol.1: Univariate case. Kluwer Academic Publishers. стр. 521p.
^ ^а ^б Johnson, Roger (1994), „Estimating the Size of a Population”, Teaching Statistics, 16 (2 (Summer)), doi:10.1111/j.1467-9639.1994.tb00688.x
^ Krebs, Charles J. (2009). Ecology (6th изд.). стр. 119. ISBN 978-0-321-50743-3.
^ Chao, A.; Tsay, P. K.; Lin, S. H.; Shau, W. Y.; Chao, D. Y. (2001). „The applications of capture-recapture models to epidemiological data”. Statistics in Medicine. 20 (20): 3123—3157. PMID 11590637. doi:10.1002/sim.996.
^ G. A. Young and R. L Smith (2005) Essentials of Statistical Inference, Cambridge University Press, Cambridge, UK, p. 95

Literatura

Anatolyev, Stanislav; Kosenok, Grigory (2005). „An alternative to maximum likelihood based on spacings” (PDF). Econometric Theory. 21 (2): 472—476. CiteSeerX 10.1.1.494.7340  . doi:10.1017/S0266466605050255. Архивирано из оригинала (PDF) 16. 08. 2011. г. Приступљено 21. 1. 2009.
Beirlant, J.; Dudewicz, E.J.; Györfi, L.; van der Meulen, E.C. (1997). „Nonparametric entropy estimation: an overview” (PDF). International Journal of Mathematical and Statistical Sciences. 6 (1): 17—40. ISSN 1055-7490. Архивирано из оригинала (PDF) 5. 5. 2005. г. Приступљено 31. 12. 2008.
Cheng, R.C.H.; Amin, N.A.K. (1983). „Estimating parameters in continuous univariate distributions with a shifted origin”. Journal of the Royal Statistical Society, Series B. 45 (3): 394—403. ISSN 0035-9246. JSTOR 2345411. doi:10.1111/j.2517-6161.1983.tb01268.x.
Cheng, R.C.H; Stephens, M. A. (1989). „A goodness-of-fit test using Moran's statistic with estimated parameters”. Biometrika. 76 (2): 386—392. doi:10.1093/biomet/76.2.385.
Ekström, Magnus (1997). „Generalized maximum spacing estimates”. University of Umeå, Department of Mathematics. 6. ISSN 0345-3928. Архивирано из оригинала 14. 2. 2007. г. Приступљено 30. 12. 2008.
Hall, M.J.; van den Boogaard, H.F.P.; Fernando, R.C.; Mynett, A.E. (2004). „The construction of confidence intervals for frequency analysis using resampling techniques”. Hydrology and Earth System Sciences. 8 (2): 235—246. ISSN 1027-5606. doi:10.5194/hess-8-235-2004.
Pieciak, Tomasz (2014). The maximum spacing noise estimation in single-coil background MRI data (PDF). IEEE International Conference on Image Processing. Paris. стр. 1743—1747. Приступљено 7. 7. 2015. ^{[мртва веза]}
Pyke, Ronald (1965). „Spacings”. Journal of the Royal Statistical Society, Series B. 27 (3): 395—449. ISSN 0035-9246. JSTOR 2345793. doi:10.1111/j.2517-6161.1965.tb00602.x.
Ranneby, Bo (1984). „The maximum spacing method. An estimation method related to the maximum likelihood method”. Scandinavian Journal of Statistics. 11 (2): 93—112. ISSN 0303-6898. JSTOR 4615946.
Ranneby, Bo; Ekström, Magnus (1997). „Maximum spacing estimates based on different metrics”. University of Umeå, Department of Mathematics. 5. ISSN 0345-3928. Архивирано из оригинала 14. 2. 2007. г. Приступљено 30. 12. 2008.
Ranneby, Bo; Jammalamadakab, S. Rao; Teterukovskiy, Alex (2005). „The maximum spacing estimation for multivariate observations” (PDF). Journal of Statistical Planning and Inference. 129 (1–2): 427—446. doi:10.1016/j.jspi.2004.06.059. Приступљено 31. 12. 2008.
Wong, T.S.T; Li, W.K. (2006). „A note on the estimation of extreme value distributions using maximum product of spacings”. Time series and related topics: in memory of Ching-Zong Wei. Institute of Mathematical Statistics Lecture Notes - Monograph Series. Beachwood, Ohio: Institute of Mathematical Statistic. стр. 272–283. ISBN 978-0-940600-68-3. arXiv:math/0702830v1  . doi:10.1214/074921706000001102.

Spoljašnje veze

Diskretna slučajna varijabla Архивирано на сајту Wayback Machine (10. август 2019)

[Davies-2006-07-20-1] „Gavyn Davies does the maths – How a statistical formula won the war”. The Guardian. 20. 7. 2006. Приступљено 6. 7. 2014.

[2] Matthews, Robert (23. 5. 1998), „Data sleuths go to war, sidebar in feature "Hidden truths"”, New Scientist, Архивирано из оригинала 18. 4. 2001. г.

[Carruthers-3] Bob Carruthers (1. 3. 2012). Panther V in Combat. Coda Books Ltd. стр. 94—. ISBN 978-1-908538-15-4.

[Johnson2-4] Johnson, Roger (2006), „Estimating the Size of a Population”, Getting the Best from Teaching Statistics, Архивирано из оригинала (PDF) 20. 11. 2008. г.

[5] Joyce, Smart. „German Tank Problem”. Logan High School. Архивирано из оригинала 24. 4. 2012. г. Приступљено 8. 7. 2014.

[6] Keener, Robert W. (2006). Statistical Theory: Notes for a Course in Theoretical Statistics. Springer. стр. 47—48, 57—58.

[7] Voinov V. G., Nikulin M.S. (1993). Unbiased estimators and their applications, Vol.1: Univariate case. Kluwer Academic Publishers. стр. 521p.

[Johnson-8] а ^б Johnson, Roger (1994), „Estimating the Size of a Population”, Teaching Statistics, 16 (2 (Summer)), doi:10.1111/j.1467-9639.1994.tb00688.x

[Krebs2009-9] Krebs, Charles J. (2009). Ecology (6th изд.). стр. 119. ISBN 978-0-321-50743-3.

[Chao-10] Chao, A.; Tsay, P. K.; Lin, S. H.; Shau, W. Y.; Chao, D. Y. (2001). „The applications of capture-recapture models to epidemiological data”. Statistics in Medicine. 20 (20): 3123—3157. PMID 11590637. doi:10.1002/sim.996.

[11] G. A. Young and R. L Smith (2005) Essentials of Statistical Inference, Cambridge University Press, Cambridge, UK, p. 95

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Funkcija verovatnoće n = 5 gde je n = b − a + 1
Funkcija kumulativne raspodele
Notacija	${\mathcal {U}}\{a,b\}$ ili $\mathrm {unif} \{a,b\}$
Parametri	$a\in \{\dots ,-2,-1,0,1,2,\dots \}\,$ $b\in \{\dots ,-2,-1,0,1,2,\dots \},b\geq a$ $n=b-a+1\,$
Nositelj	$k\in \{a,a+1,\dots ,b-1,b\}\,$
pmf	${\frac {1}{n}}$
CDF	${\frac {\lfloor k\rfloor -a+1}{n}}$
Prosek	${\frac {a+b}{2}}\,$
Medijana	${\frac {a+b}{2}}\,$
Modus	N/A
Varijansa	${\frac {(b-a+1)^{2}-1}{12}}$
Koef. asimetrije	$0\,$
Kurtoza	$-{\frac {6(n^{2}+1)}{5(n^{2}-1)}}\,$
Entropija	$\ln(n)\,$
MGF	${\frac {e^{at}-e^{(b+1)t}}{n(1-e^{t})}}\,$
CF	${\frac {e^{iat}-e^{i(b+1)t}}{n(1-e^{it})}}$