U matematici, Hesijan matrica ili Hesijan je kvadratna matrica parcijalnih izvoda drugog reda skalarne funkcije ili skalarnog polja . On opisuje lokalnu krivinu funkcije mnogih promenljivih. Hesijanovu matricu je u 19. veku razvio nemački matematičar Ludvig Oto Hese i kasnije je nazvana po njemu. Hese je prvobitno koristio termin „funkcionalne odrednice“.

Pretpostavimo da je funkcija koja kao ulaz uzima vektor i izlaz skalara Ako su svi drugi parcijalni izvodi od postojeći i neprekidni su u domenu funkcije, onda Hesijanova matrica od je kvadrat matrica, obično definisana i uređena na sledeći način:

ili, navođenjem jednačine za koeficijente koristeći indekse i i j,
Hesijanova matrica je simetrična matrica, pošto hipoteza o kontinuitetu drugih izvoda podrazumeva da red diferencijacije nije bitan ( Švarcova teorema ).

Determinanta Hesijanove matrice naziva se Hessian determinant [1]

Hesijanova matrica funkcije je Jakobijanska matrica gradijenta funkcije  ; to je:

Primena

uredi

Pregibne tačke

uredi

Ako   je homogeni polinom u tri varijable, jednačina   je implicitna jednačina ravne projektivne krive . Pregibne tačke krive su upravo one nesingularne tačke u kojima je Hesijanova determinanta nula. Iz Bezuove teoreme sledi da kubična ravna kriva ima najviše   prevojne tačke, pošto je Hesova determinanta polinom stepena  

Test drugog izvoda

uredi

Hesijanova matrica konveksne funkcije je pozitivna poluodređena . Prečišćavanje ove osobine nam omogućava da testiramo da li je kritična tačka   je lokalni maksimum, lokalni minimum ili tačka sedla, kako sledi:

Ako je Hesijan pozitivno-definisan u   onda   dostiže izolovani lokalni minimum u   Ako je Hesijan negativno-definitan u   onda   dostiže izolovani lokalni maksimum u   Ako Hesijan ima i pozitivne i negativne sopstvene vrednosti, onda je   sedlo za   U suprotnom, test je neuverljiv. Ovo implicira da je na lokalnom minimumu Hesijan pozitivno-poluodređen, a na lokalnom maksimumu Hesijan je negativno-poluodređen.

Za pozitivno-semidefinitne i negativno-semidefinite hesijane test je neuverljiv (kritična tačka u kojoj je hesijan poluodređen, ali nije određen može biti lokalni ekstrem ili tačka sedla). Međutim, više se može reći sa stanovišta Morzeove teorije .

Test drugog izvoda za funkcije jedne i dve promenljive je jednostavniji od opšteg slučaja. U jednoj promenljivoj, Hesijan sadrži tačno jedan drugi izvod; ako je pozitivan, onda   je lokalni minimum, a ako je negativan, onda   je lokalni maksimum; ako je nula, onda je test neuverljiv. Kada imamo dve promenljive, determinanta može biti korisna, jer je determinanta proizvod svojstvenim vrednostima. Ako je pozitivana, onda su sopstvene vrednosti obe pozitivne ili obe negativne. Ako je negativan, onda dve sopstvene vrednosti imaju različite predznake. Ako je nula, onda je test drugog izvoda neuverljiv.

Ekvivalentno, uslovi drugog reda koji su dovoljni za lokalni minimum ili maksimum mogu se izraziti u smislu redosleda glavnih (krajnji gornji levi) minora (determinante podmatrica) Hesijana; ovi uslovi su poseban slučaj onih koji su dati u sledećem odeljku za ograničene hesijane za ograničenu optimizaciju - slučaj u kojem je broj ograničenja nula. Konkretno, dovoljan uslov za minimum je da svi ovi glavni minori budu pozitivni, dok je dovoljan uslov za maksimum da se minori smenjuju u znaku, sa   minor je negativan.

Kritične tačke

uredi

Ako je gradijent (vektor parcijalnih izvoda) funkcije   nula u nekom trenutku   onda   ima kritičnu tačku (ili stacionarnu tačku ) u   Determinanta Hesijana u   se u nekim kontekstima naziva diskriminantom . Ako je ova determinanta nula onda se   naziva degenerativna kritična tačka od   ili ne-Morzeova kritična tačka od   Inače je nedegenerisana i naziva se Morzeova kritična tačka od  

Hesijanova matrica igra važnu ulogu u Morzeovoj teoriji i teoriji katastrofe, jer njeno jezgro i sopstvene vrednosti omogućavaju klasifikaciju kritičnih tačaka. [2] [3] [4]

Determinanta Hesijanove matrice, kada se proceni u kritičnoj tački funkcije, jednaka je Gausovoj krivini funkcije koja se smatra mnogostrukom. Sopstvene vrednosti Hesijana u toj tački su glavne krivine funkcije, a sopstveni vektori su glavni pravci krivine.

Upotreba u optimizaciji

uredi

Hesijan matrice se koriste u optimizacijskim problemima velikih razmera u okviru Njutnove moteode jer su koeficijent kvadratnog člana lokalne Tejlorove ekspanzije funkcije. To je,

 
gde   je gradijent   Izračunavanje i čuvanje pune hesijanove matrice ima kompleksnost  , što je neizvodljivo za visokodimenzionalne funkcije kao što su funkcije gubitka, neuronske mreže, uslovna slučajna polja i drugi statistički modeli sa velikim brojem parametara. Za takve situacije razvijeni su skraćeni Njutnov i kvaziNjutnov algoritam. Poslednja porodica algoritama koristi aproksimacije Hesijana; jedan od najpopularnijih kvazi-Njutnovih algoritama je BFGS . [5]

Takve aproksimacije mogu koristiti činjenicu da algoritam optimizacije koristi Hesijan samo kao linearni operator   i nastavi tako što će prvo primetiti da se Hesijan takođe pojavljuje u lokalnoj ekspanziji gradijenta:

 
  za neki skalar   ovo daje
 
što je,
 
pa ako je gradijent već izračunat, približni Hesijan se može izračunati linearnim (u veličini gradijenta) brojem skalarnih operacija. (Iako je jednostavna za programiranje, ova šema aproksimacije nije numerički stabilna jer   mora biti mala da bi se sprečila greška zbog   kompleksnosti, ali njegovim smanjenjem gubi se preciznost. [6] )

Druge primene

uredi

Hesijan matrica se obično koristi za izražavanje operatora za obradu slike i kompjuterskom vidu (pogledajte Laplasov Gausov (LoG) detektor mrlja, determinantu Hesijanu (DoH) detektora mrlja i prostor skale ). Hesijan matrica se takođe može koristiti u analizi normalnog režima za izračunavanje različitih molekularnih frekvencija u infracrvenoj spektroskopiji . [7]

Generalizacije

uredi

Ograničeni Hesijan

uredi

Ograničeni Hesijan se koristi za test drugog izvoda u određenim ograničenim problemima optimizacije. S obzirom na funkciju   koju smo prethodno razmatrali, ali dodajući funkciju ograničenja   takvu da   ograničen Hesijen je Hesijen Lagranžove funkcije   [8]

 
Ako postoje, recimo,   ograničenja onda je nula u gornjem levom uglu   blok nula, dok postoje   graničnih redova na vrhu i   granične kolone na levoj strani.

Gorenavedena pravila koja navode da su ekstremi okarakterisani (među kritičnim tačkama sa ne-singularnim hesijanom) pozitivno-definitivnim ili negativno-definitivnim hesijanom ne mogu se primeniti ovde pošto ograničeni hesijan ne može biti ni negativno-definitan ni pozitivno-definitan, kao   ako   je bilo koji vektor čiji je jedini unos koji nije prvi nula.

Test drugog izvoda se ovde sastoji od ograničenja znaka determinanti određenog skupa   podmatrice ograničenog Hesijana. [9] Intuitivno,   ograničenja se mogu smatrati svođenjem problema na jedno sa   slobodne promenljive. (Na primer, maksimizacija funkcije   podložan ograničenju   može se svesti na maksimizaciju od   bez ograničenja. )

Konkretno, predznačni uslovi se nameću nizu vodećih glavnih minora (determinante gornje-levo opravdanih podmatrica) ograničenog Hesijana, za koje su prvi   vodeći glavni minori zanemareni, najmanji minor koji se sastoji od skraćenog prvog   redova i kolona, sledeći se sastoji od skraćenog prvog   redova i kolona, i tako dalje, pri čemu je poslednji ceo ograničen Hesijan; ako   je veći od   onda je najmanji vodeći glavni minor Hesijan. [10] Tako postoje   minori koje treba uzeti u obzir, a svako ocenjen u određenom trenutku smatra se kandidatom za maksimum ili minimum . Dovoljan uslov za lokalni maksimum je da se ovi minori smenjuju u znaku sa najmanjim koji ima predznak   Dovoljan uslov za lokalni minimum je da svi ovi minori imaju predznak   (U neograničenom slučaju   ovi uslovi se poklapaju sa uslovima da neograničeni Hesijan bude negativno određen ili pozitivno određen).

Vektorske funkcije

uredi

Ako je   umesto toga vektorsko polje   onda je,

 
zbirka drugih parcijalnih izvoda nije   matrica, već tenzor trećeg reda. Ovo se može zamisliti kao niz od   Hesijan matrica, po jedna za svaku komponentu   :
 
Ovaj tenzor se degeneriše u uobičajenu Hesijanovu matricu kada  

Generalizacija na složen slučaj

uredi

U kontekstu nekoliko kompleksnih promenljivih, Hesijan se može generalizovati. Pretpostavimo   i pisati   Tada je generalizovani Hesijan   Ako   zadovoljava n-dimenzionalne Koši–Riman uslove, onda je kompleksna Hesijanova matrica identično nula.

Generalizacije na Rimanove mnogostrukosti

uredi

Neka   bude Rimanova mnogostrukost i   njegova veza Levi-Čivita . Neka   bude glatka funkcija. Definišemo Hesijanov tenzor sa

 
pri čemu se ovim koristi činjenica da je prvi kovarijantni izvod funkcije isti kao i njen obični izvod. Izbor lokalnih koordinata   daje lokalni izraz za Hesijan kao
 
gde   su Kristofelovi simboli veze. Drugi ekvivalentni oblici za Hesijan su dati po
 

Vidi još

uredi

Reference

uredi
  1. ^ Binmore, Ken; Davies, Joan (2007). Calculus Concepts and Methods. Cambridge University Press. str. 190. ISBN 978-0-521-77541-0. OCLC 717598615. 
  2. ^ Callahan, James J. (2010). Advanced Calculus: A Geometric View (na jeziku: engleski). Springer Science & Business Media. str. 248. ISBN 978-1-4419-7332-0. 
  3. ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., ur. (2011). Recent Developments in General Relativity (na jeziku: engleski). Springer Science & Business Media. str. 178. ISBN 9788847021136. 
  4. ^ Domenico P. L. Castrigiano; Sandra A. Hayes (2004). Catastrophe theory. Westview Press. str. 18. ISBN 978-0-8133-4126-2. 
  5. ^ Nocedal, Jorge; Wright, Stephen (2000). Numerical Optimization. Springer Verlag. ISBN 978-0-387-98793-4. 
  6. ^ Pearlmutter, Barak A. (1994). „Fast exact multiplication by the Hessian” (PDF). Neural Computation. 6 (1): 147—160. doi:10.1162/neco.1994.6.1.147. Arhivirano iz originala (PDF) 15. 11. 2021. g. Pristupljeno 15. 11. 2021. 
  7. ^ Mott, Adam J.; Rez, Peter (24. 12. 2014). „Calculation of the infrared spectra of proteins”. European Biophysics Journal (na jeziku: engleski). 44 (3): 103—112. ISSN 0175-7571. doi:10.1007/s00249-014-1005-6. 
  8. ^ Hallam, Arne (7. 10. 2004). „Econ 500: Quantitative Methods in Economic Analysis I” (PDF). Iowa State. 
  9. ^ Neudecker, Heinz; Magnus, Jan R. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. str. 136. ISBN 978-0-471-91516-4. 
  10. ^ Chiang, Alpha C. (1984). Fundamental Methods of Mathematical Economics (Third izd.). McGraw-Hill. str. 386. ISBN 978-0-07-010813-4. 

Literatura

uredi

Spoljašnje veze

uredi