Регресиона анализа

Регресиона анализа као појам се везује за утврђивање међусобних односа између две или више појава. Може нас, на пример, интересовати зависност између времена проведеног у спремању испита и добијене оцене на испиту, зарада запослених и њиховог образовања, каматне стопе и понуде новца... Како бисмо утврдили да ли су и у којој мери ове појаве зависне, правимо регресиони модел.^[1] Регресиона анализа има широку примену у предвиђању и прогнозирању^[2] појава у разним областима, као што су економија, медицина, психологија, историја...

Регресиона анализа се првенствено користи у две концептуално различите сврхе. Прво, регресиона анализа се широко користи за предвиђање и прогнозирање, где се њена употреба значајно преклапа са пољем машинског учења. Друго, у неким ситуацијама се регресиона анализа може користити да се закључи узрочно-последична веза између независних и зависних варијабли. Важно је да регресије саме по себи откривају само односе између зависне променљиве и колекције независних варијабли у фиксном скупу података. Да би се користиле регресије за предвиђање или да би се извеле узрочне везе, истраживач мора пажљиво да образложи зашто постојећи односи имају предиктивну моћ за нови контекст или зашто однос између две варијабле има каузалну интерпретацију. Ово последње је посебно важно када се истраживачи надају да ће проценити узрочне везе користећи податке посматрања.^[3]^[4]

Историја

Најранији облик регресије била је метода најмањих квадрата, коју су објавили Лежандр 1805. године,^[5] и Гаус 1809. године.^[6] Лежандр и Гаус су применили методу на проблем одређивања из астрономских посматрања орбита тела око Сунца (углавном комета, али касније и новооткривених малих планета). Гаус је објавио даљи развој теорије најмањих квадрата 1821. године,^[7] укључујући верзију Гаус-Марковљеве теореме.

Термин „регресија“ је сковао Френсис Галтон у 19. веку да би описао један биолошки феномен. Феномен је био да висине потомака високих предака имају тенденцију да регресирају ка нормалном просеку (феномен такође познат као регресија ка средњој вредности).^[8]^[9] За Галтона, регресија је имала само ово биолошко значење,^[10]^[11] али су Јудни Јул и Карл Пирсон касније проширили његов рад на општији статистички контекст.^[12]^[13] У раду Јула и Пирсона, заједничка расподела респонса и објашњавајућих варијабли узима се да подлеже Гаусовој расподели. Ову претпоставку је ослабио Р.А. Фишер у својим делима из 1922. и 1925. године.^[14]^[15]^[16] Фишер је претпоставио да је условна дистрибуција варијабле респонса описана Гаусовом расподелом, али да заједничка дистрибуција не мора бити. У том погледу, Фишерова претпоставка је ближа Гаусовој формулацији из 1821. године.

Током 1950-их и 1960-их, економисти су користили електромеханичке стоне калкулаторе за израчунавање регресије. Пре 1970, понекад је требало и до 24 сата да се добије резултат једне регресије.^[17]

Појам регресионе анализе

У статистичком моделовању, регресиона анализа је скуп статистичких процедура помоћу којих оцењујемо међусобну повезаност зависне променљиве (критеријумске променљиве), коју обично означавамо са $Y$ и независних променљивих (предикторске променљиве, регресори, фактори...), које обично означавамо са $X_{1}$ , $X_{2}$ , ..., $X_{n}$ где је $n$ број независних променљивих.^[18] Тачније, резултати добијени регресионом анализом нам говоре како се вредност зависне променљиве мења када се промени вредност једне независне променљиве, док су вредности осталих независних променљивих фиксиране. Основни задатак регресионе анализе је апроксимација регресионе функције којом се представља веза између зависне и независних променљивих. Регресиона анализа се такође користи за оцењивање функционалне зависности између зависне и независних променљивих, као и природе те зависности.

Подела метода регресионе анализе

Према броју независних променљивих у регресионом моделу, разликујемо:

Проста регресија, код које постоји по једна зависна и једна независна променљива^[19]^[20]^[21]^[22]^[23]
Вишеструка регресија, где постоји једна зависна, али више независних променљивих^[24]^[25]

Према врсти зависне променљиве, регресиони модели могу да буду:

Модели са континуираном зависном променљивом
Модели са категоричком зависном променљивом, која није дихотомна, већ узима више од две вредности (категорије)
Модели са дихотомном зависном променљивом, који представљају специјалан случај модела са категоричком зависном променљивом, јер зависна променљива може узимати само две вредности^[26]

Према природи везе између зависне и независних променљивих, регресија може да буде:

Линеарна регресија, коју карактерише постојање линеарне везе између независних променљивих и зависне променљиве, а која се у моселу исказује као сабирање независних променљивих првог степена
Нелинеарна регресија, која може бити:

Према броју зависних променљивих, регресиони модел може бити:

Униваријантни регресиони модел, тј. модел који има једну зависну променљиву
Мултиваријантни регресиони модел, код кога постоји више зависних променљивих због чега се он састоји из више регресионих једначина^[27]

Примена регресионе анализе

Концепт регресије је лако разумљив и имплементиран је у скоро сваком статистичком пакету, а омогућава испитивање функционалне зависности између променљивих, па као такав лежи у основи многих савремених статистичких техника. Зато се примена регресионе анализе може наћи у скоро свим академским областима или примењеној науци данас. Неки од примера су:

Економија- предвиђање потрошње, предвиђање кретања цена акција на берзи и др.^[28]
Психологија- утицај интелигенције на постигнућа појединаца, утицај начина васпитања и културних вредности појединаца на њихова постигнућа у школи и сл.
Пољопривреда- како предвидети количину рода пшенице на основу познавања скупа других података (број сунчаних и кишних дана у години, семена и вештачког ђубрива које се користи...)
Историја- како проценити старост неког објекта на основу познатих карактеристика објекта.
Политика- предвиђање кретања становништва на основу познавања пола, стопе незапослености, висине примања у неком региону

Порекло речи регресија

Френсис Галтон (енгл. Francis Galton) је 1877. године, у Енглеској, представио рад „Типични закони наслеђа“, у коме је изложио концепт регресије.^[29] Он је открио везу између величине зрна грашка родитељске биљке и величине зрна грашка биљке потомка. Установио је да је ова веза приближно линеарна. Такође је утврдио да величина зрна „регресира“ ка средњој вредности. Овај феномен је назвао „регресија ка медиокритету“.

Референце

^ „Necessary Condition Analysis - Erasmus Research Institute of Management - ERIM”. www.erim.eur.nl (на језику: енглески). Приступљено 19. 5. 2018.
^ French, Jordan (2017). „The time traveller's CAPM”. Investment Analysts Journal. 46 (2): 81—96. S2CID 157962452. doi:10.1080/10293523.2016.1255469.
^ David A. Freedman (27. 4. 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
^ Cook, R. Dennis; Weisberg, Sanford (1982). „Criticism and Influence Analysis in Regression”. Sociological Methodology. 13: 313—361. JSTOR 270724. doi:10.2307/270724.
^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
^ Chapter 1 of: Angrist, J. D., & Pischke, J. S. Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. 2008. .
^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
^ Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. стр. 59. ISBN 978-0-7575-1181-3.
^ Galton, Francis (1989). „Kinship and Correlation (reprinted 1989)”. Statistical Science. 4 (2): 80—86. JSTOR 2245330. doi:10.1214/ss/1177012581  .
^ Francis Galton. „Typical laws of heredity”. Nature. 15 (388): 492—495. 1877. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. , 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
^ Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)
^ Yule, G. Udny (1897). „On the Theory of Correlation”. Journal of the Royal Statistical Society. 60 (4): 812—54. JSTOR 2979746. doi:10.2307/2979746.
^ Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee, Alice (1903). „The Law of Ancestral Heredity”. Biometrika. 2 (2): 211—236. JSTOR 2331683. doi:10.1093/biomet/2.2.211.
^ Fisher, R.A. (1922). „The goodness of fit of regression formulae, and the distribution of regression coefficients”. Journal of the Royal Statistical Society. 85 (4): 597—612. JSTOR 2341124. PMC 1084801  . doi:10.2307/2341124.
^ Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth изд.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
^ Aldrich, John (2005). „Fisher and Regression”. Statistical Science. 20 (4): 401—417. JSTOR 20061201. doi:10.1214/088342305000000331  .
^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.
^ Nagahara, Yuichi (јул 1999). „The PDF and CF of Pearson type IV distributions and the ML estimation of the parameters”. Statistics & Probability Letters. 43 (3): 251—264. ISSN 0167-7152. doi:10.1016/s0167-7152(98)00265-x.
^ Seltman, Howard J. (2008-09-08). Experimental Design and Analysis (PDF). стр. 227.
^ „Statistical Sampling and Regression: Simple Linear Regression”. Columbia University. Архивирано из оригинала 11. 12. 2017. г. Приступљено 2016-10-17. „When one independent variable is used in a regression, it is called a simple regression;(...)”
^ Lane, David M. Introduction to Statistics (PDF). стр. 462.
^ Zou KH; Tuncali K; Silverman SG (2003). „Correlation and simple linear regression.”. Radiology (на језику: енглески). 227 (3): 617—22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499.
^ Altman, Naomi; Krzywinski, Martin (2015). „Simple linear regression”. Nature Methods (на језику: енглески). 12 (11): 999—1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627.
^ Yin-Wen Chang; Cho-Jui Hsieh; Kai-Wei Chang; Ringgaard, Michael; Chih-Jen Lin (2010). „Training and testing low-degree polynomial data mappings via linear SVM”. Journal of Machine Learning Research. 11: 1471—1490.
^ Smith, Kirstine (1918). „On the Standard Deviations of Adjusted and Interpolated Values of an Observed Polynomial Function and its Constants and the Guidance They Give Towards a Proper Choice of the Distribution of the Observations”. Biometrika. 12 (1/2): 1—85. JSTOR 2331929. doi:10.2307/2331929.
^ Armstrong, J. Scott (јул 2012). „Illusions in regression analysis”. International Journal of Forecasting. 28 (3): 689—694. ISSN 0169-2070. doi:10.1016/j.ijforecast.2012.02.001.
^ Chiang, Chin Long (2003). Statistical Methods of Analysis (на језику: енглески). World Scientific. ISBN 9789812383105.
^ Ramcharan, Rodney (2003). „Reputation, Debt, and Policy Conditionality”. IMF Working Papers. 03 (192): 1. ISSN 1018-5941. doi:10.5089/9781451859782.001.
^ „Typical Laws of Heredity 1”. Nature. 15 (389): 512—514. април 1877. Bibcode:1877Natur..15R.512.. ISSN 0028-0836. doi:10.1038/015512b0.

Литература

Chiang, Chin Long (2003). Statistical Methods of Analysis (на језику: енглески). World Scientific. ISBN 9789812383105.
William H. Kruskal and Judith M. Tanur, ed. (1978). „Linear Hypotheses”. International Encyclopedia of Statistics. Free Press. , v. 1,

Evan J. Williams, "I. Regression," pp. 523–41.

Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.

Lindley, D.V. (1987). "Regression and correlation analysis," New Palgrave: A Dictionary of Economics, v. 4, pp. 120–23.
Birkes, David and Dodge, Y. (1993). Alternative Methods of Regression. ISBN 0-471-56881-3.
Chatfield, C. (1993) "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11. pp. 121–135.
Draper, N.R.; Smith, H. (1998). Applied Regression Analysis (3rd изд.). John Wiley. ISBN 0-471-17082-8.
Fox, J (1997). Applied Regression Analysis, Linear Models and Related Methods. Sage
Hardle, W. (1990). Applied Nonparametric Regression. ISBN 0-521-42950-1. ,
Meade, N. and T. Islam (1995) "Prediction Intervals for Growth Curve Forecasts" Journal of Forecasting, 14, pp. 413–430.
A. Sen, M. Srivastava, Regression Analysis — Theory, Methods, and Applications, Springer-Verlag, Berlin, 2011 (4th printing).
T. Strutz (2010-09-30). Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). ISBN 978-3-8348-1022-9. . Vieweg+Teubner, .
Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons.
Chicco, Davide; Warrens, Matthijs J.; Jurman, Giuseppe (2021). „The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation”. PeerJ Computer Science. 7 (e623): e623. PMID 34307865. doi:10.7717/peerj-cs.623  .

Спољашње везе

Математички факултет у Београду
Hazewinkel Michiel, ур. (2001). „Regression analysis”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104.
Earliest Uses: Regression – basic history and references
Regression of Weakly Correlated Data

[1] „Necessary Condition Analysis - Erasmus Research Institute of Management - ERIM”. www.erim.eur.nl (на језику: енглески). Приступљено 19. 5. 2018.

[2] French, Jordan (2017). „The time traveller's CAPM”. Investment Analysts Journal. 46 (2): 81—96. S2CID 157962452. doi:10.1080/10293523.2016.1255469.

[Freedman2009-3] David A. Freedman (27. 4. 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.

[4] Cook, R. Dennis; Weisberg, Sanford (1982). „Criticism and Influence Analysis in Regression”. Sociological Methodology. 13: 313—361. JSTOR 270724. doi:10.2307/270724.

[Legendre-5] A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.

[Gauss-6] Chapter 1 of: Angrist, J. D., & Pischke, J. S. Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. 2008. .

[Gauss2-7] C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)

[8] Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. стр. 59. ISBN 978-0-7575-1181-3.

[9] Galton, Francis (1989). „Kinship and Correlation (reprinted 1989)”. Statistical Science. 4 (2): 80—86. JSTOR 2245330. doi:10.1214/ss/1177012581  .

[10] Francis Galton. „Typical laws of heredity”. Nature. 15 (388): 492—495. 1877. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. , 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)

[11] Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)

[12] Yule, G. Udny (1897). „On the Theory of Correlation”. Journal of the Royal Statistical Society. 60 (4): 812—54. JSTOR 2979746. doi:10.2307/2979746.

[13] Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee, Alice (1903). „The Law of Ancestral Heredity”. Biometrika. 2 (2): 211—236. JSTOR 2331683. doi:10.1093/biomet/2.2.211.

[14] Fisher, R.A. (1922). „The goodness of fit of regression formulae, and the distribution of regression coefficients”. Journal of the Royal Statistical Society. 85 (4): 597—612. JSTOR 2341124. PMC 1084801  . doi:10.2307/2341124.

[FisherR1954Statistical-15] Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth изд.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.

[16] Aldrich, John (2005). „Fisher and Regression”. Statistical Science. 20 (4): 401—417. JSTOR 20061201. doi:10.1214/088342305000000331  .

[17] Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.

[18] Nagahara, Yuichi (јул 1999). „The PDF and CF of Pearson type IV distributions and the ML estimation of the parameters”. Statistics & Probability Letters. 43 (3): 251—264. ISSN 0167-7152. doi:10.1016/s0167-7152(98)00265-x.

[19] Seltman, Howard J. (2008-09-08). Experimental Design and Analysis (PDF). стр. 227.

[:0-20] „Statistical Sampling and Regression: Simple Linear Regression”. Columbia University. Архивирано из оригинала 11. 12. 2017. г. Приступљено 2016-10-17. „When one independent variable is used in a regression, it is called a simple regression;(...)”

[21] Lane, David M. Introduction to Statistics (PDF). стр. 462.

[22] Zou KH; Tuncali K; Silverman SG (2003). „Correlation and simple linear regression.”. Radiology (на језику: енглески). 227 (3): 617—22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499.

[23] Altman, Naomi; Krzywinski, Martin (2015). „Simple linear regression”. Nature Methods (на језику: енглески). 12 (11): 999—1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627.

[Chang2010-24] Yin-Wen Chang; Cho-Jui Hsieh; Kai-Wei Chang; Ringgaard, Michael; Chih-Jen Lin (2010). „Training and testing low-degree polynomial data mappings via linear SVM”. Journal of Machine Learning Research. 11: 1471—1490.

[25] Smith, Kirstine (1918). „On the Standard Deviations of Adjusted and Interpolated Values of an Observed Polynomial Function and its Constants and the Guidance They Give Towards a Proper Choice of the Distribution of the Observations”. Biometrika. 12 (1/2): 1—85. JSTOR 2331929. doi:10.2307/2331929.

[26] Armstrong, J. Scott (јул 2012). „Illusions in regression analysis”. International Journal of Forecasting. 28 (3): 689—694. ISSN 0169-2070. doi:10.1016/j.ijforecast.2012.02.001.

[27] Chiang, Chin Long (2003). Statistical Methods of Analysis (на језику: енглески). World Scientific. ISBN 9789812383105.

[28] Ramcharan, Rodney (2003). „Reputation, Debt, and Policy Conditionality”. IMF Working Papers. 03 (192): 1. ISSN 1018-5941. doi:10.5089/9781451859782.001.

[29] „Typical Laws of Heredity 1”. Nature. 15 (389): 512—514. април 1877. Bibcode:1877Natur..15R.512.. ISSN 0028-0836. doi:10.1038/015512b0.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]