Nelinearna regresija

U statistici, nelinearna regresija je forma regresione analize u kojoj se eksperimentalni podaci modeluju funkcijom koja je nelinearna kombinacija parametara modela, i zavisi od jedne ili više nezavisnih promenljivih. Podaci su obrađeni metodom sukcesivnih aproksimacija.

Model

Podaci se sastoje od nezavisnih promenljivih koje ne sadrže greške (eksplanatorne promenljive), x, i s njima povezanih eksperimentalnih zavisnih promenljivih (responsne promenljive), y. Svaka vrednost y se modeluje kao randomna promenljiva sa prosekom datim u obliku nelinearne funkcije f(x,β). Sistematske greške mogu da budu prisutne, ali je njihov tretman izvan opsega regresione analize. Ako nezavisne promenljive sadrže greške, mogu se koristiti modeli greški u promenljivama, koji su takođe izvan opsega ovog članka.

Na primer, Mihaelis-Mentenov model enzimske kinetike

v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}

se može napisati kao

f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}

gde je $\beta _{1}$ parameter $V_{\max }$ , $\beta _{2}$ je parameter $K_{m}$ i [S] je nezavisna promenljiva, x. Funkcija je nelinearna, jer se ne može izraziti kao linearna kombinacija dve $\beta$ vrednosti.

Drugi primeri nelinearnih funkcija su eksponencijalne funkcije, logaritamske funkcije, trigonometrijske funkcije, funkcije stepena, Gausove funkcije, i Lorencove krive. Neke funkcije, kao što su eksponencijalne ili logaritamske funkcije, mogu se transformisati tako da poprime linearni oblik. Na tako transformisanim funkcijama se može uz oprez primeniti standardna linearna regresija. Pogledajte ispod odeljak o linearizaciji za dodatne detalje.

U opštem slučaju, ne postoji iraz zatvorene forme za evaluaciju parametara, kao što je to slučaj kod linearne regresije. Obično se koriste numerički optimizacioni algoritmi za određivanje najpodesnijih parametara. Za razliku od linearne regresije, mogu da postoje mnogobrojni localni minimumi optimizovane funkcije, a isto tako je moguće da globalni minimum proizvodi bajasnu procenu. U praksi, se u pokušajima nalaženja globalnog minimuma sume kvadrata koriste procenjene vrednosti parameterara, u sprezi sa optimizacionim algoritmima.

Dodatni detalji o nelinearnom modelovanju podataka su dostupni u člancima o najmanjim kvadratima i nelinearnim najmanjim kvadratima.

Regresiona statistika

Pretpostavka u osnovi ovog postupka je da se model može aproksimirati linearnom funkcijom.

f(x_{i},{\boldsymbol {\beta }})\approx f^{0}+\sum _{j}J_{ij}\beta _{j}

gde je $J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}$ . Iz ovog sledi da su estimatori najmanjih kvadrata dati sa

{\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} .

Statistički parametri nelinearne regresija se izračunavaju i koriste poput njihovih linearno regresionih pandana, ali koristeći J umesto X u formulama. Linearna aproksimacija unosi bajas u statističke parametre. Zbog toga je više opreza potrebno nego pri tumačenju statističkih parametara izvedenih iz nelinearanog modela.

Obični i ponderisani najmanji kvadrati

Obično se podrazumeva da je najbolja aproksimacija krivom da se minimizuje suma kvadratnih ostataka. To je pristup (običnih) najmanjih kvadrata (OLS). Međutim, u slučajevima gde zavisna promenljiva nema konstantnu varijansu, minimizuje se suma ponderisanih kvadratnih ostataka; pogledajte ponderisane najmanje kvadrate. Svaki ponder bi idealno trebalo da bude jednak recipročnoj vrednosti varijanse obzervacija, mada ponderi mogu da budu izvedeni koristeči algoritam iterativno ponderisanih najmanjih kvadrata.

Linearizacija

Transformacija

Pojedini problemi nelinearne regresije se mogu preneti u linearni domen putem podesne transformacije formulacije modela.

Na primer, razmotrimo sledeći nelinearno regresioni problem

y=ae^{bx}U\,\!

sa parameterima a i b, i sa članom multiplikativne greške U. Ako se logaritmuju obe strane, dobija se

\ln {(y)}=\ln {(a)}+bx+u,\,\!

gde je u = ln(U). Iz ovog sledi da je moguće proceniti nepoznate parametere pomoću linearne regresije ln(y) na x, što je proračun za koji nije neophodno koristiti iterativnu optimizaciju. Međutim, nelinearne transformacije se moraju koristiti uz oprez. Uticaj eksperimentalnih vrednosti će biti izmenjen, kao i struktura grešaka modela i interpretacija inferencijalnih rezultata. Ti efekti nisu uvek poženjni. S druge strane, u zavisnosti od toga šta je najveći izvor grešaka, nelinearna transformacija može da distribuira greške u normalnom maniru, tako da odluka da se primeni nelinearna transformacima mora biti bazirana razmatranju modela.

Za Mihaelis–Mentenovu kinetiku, linearna Lajnviver–Burkov dijagram

{\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}

za 1/v vs 1/[S] je u širokoj upotrebi. Međutim njegova upotreba je nepoželjna, jer je veoma senzitivan na greške u podacima i ima jak bajas ka aproksimaciji podataka u specifičnom opsegu nezavisne promenljive, [S].

Za distribucije grešaka koji pripadaju eksponencijalnoj familiji može se koristiti link funkcija za transformaciju parametara u okviru generalizovnog linearnog modela.

Segmentacija

Prinos senfa i salinitet zemljišta

Nezavisna ili eksplanatorna promenljiva (recimo X) može se podeliti u klase ili segmente i linearna regresija se može primeniti na segmente. Segmentirana regresija sa analizom intervala poverenja može da ukaže na činjenicu da se zavisna ili responsna promenljiva (recimo Y) različito ponaša na različitim segmentima.^[1]

Slika pokazuje da salinitet zemljišta (X) inicijalno nema uticaja na prinos useva (Y) semfa (repičinog ulja), dok kad se pređe kritični prag (prelomna tačka) salinitet ima negativan uticaj na prinos.^[2]

Vidi još

Reference

^ R.J.Oosterbaan, 1994, Frequency and Regression Analysis. In: H.P.Ritzema (ed.), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 978-90-70754-33-4 . Download as PDF : [1]
^ R.J.Oosterbaan, 2002. Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [2]. The figure was made with the SegReg program, which can be downloaded freely from [3]

Literatura

Bethea, R. M.; Duran, B. S.; Boullion, T. L. (1985). Statistical Methods for Engineers and Scientists. New York: Marcel Dekker. ISBN 978-0-8247-7227-7.
Meade, N.; Islam, T. (1995). „Prediction Intervals for Growth Curve Forecasts”. Journal of Forecasting. 14 (5): 413—430. doi:10.1002/for.3980140502.
Schittkowski, K. (2002). Data Fitting in Dynamical Systems. Boston: Kluwer. ISBN 978-1-4020-1079-8.
Seber, G. A. F.; Wild, C. J. (1989). Nonlinear Regression. New York: John Wiley and Sons. ISBN 978-0-471-61760-0.

[1] R.J.Oosterbaan, 1994, Frequency and Regression Analysis. In: H.P.Ritzema (ed.), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 978-90-70754-33-4 . Download as PDF : [1]

[2] R.J.Oosterbaan, 2002. Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [2]. The figure was made with the SegReg program, which can be downloaded freely from [3]

[1]

[2]