Mašinsko učenje na mreži

U računarstvu, onlajn mašinsko učenje (eng. Online machine learning) jeste metod mašinskog učenja u kome podaci sekvencijalno postaju dostupni, pa se zatim koriste za ažuriranje prediktora budućih podataka na svakom koraku, nasuprot tehnika oflajn^[1] mašinskog učenja koje generišu prediktore učenjem na celom skupu podataka za obuku. Onlajn učenje je uobičajena tehnika koja se koristi u oblastima mašinskog učenja gde je nemoguće pretraživanje celog skupa podataka, što stoga zahteva potrebu za izuzetno naprednim algoritmima. Takođe se koristi i u situacijama kada je neophodno da se algoritam dinamički prilagođava novim obrascima u podacima ili kada se sami podaci generišu kao funkcija vremena, npr. predviđanje cena akcija. Onlajn algoritmi učenja mogu često biti skloni greškama.

Uvodna priča

U nadgledanom mašinskom učenju, zadatak je učenje (obrada) funkcije $f:X\to Y$ gde je $X$ prostor ulaza, a $Y$ prostor izlaza tj. skup vrednosti funkcije, koja dobro predviđa konkretne instanci čije je pojavljivanje dato funkcijom raspodele $p(x,y)$ na $X\times Y$ . U praksi, učeniku nikada nije poznata raspodela vrednosti $p(x,y)$ . Umesto toga učenik obično ima pristup konkretnom skupu instanci $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ . U ovom slučaju, takozvana funkcija greške data sa $V:Y\times Y\to \mathbb {R}$ jeste funkcija takva da $V(f(x),y)$ meri razlike između predvićenih vrednosti $f(x)$ i pravih vrednosti $y$ . Ključna stvar jeste izbor funkcije $f\in {\mathcal {H}}$ , gde je ${\mathcal {H}}$ prostor funkcija koji se naziva prostor hipoteza, tako da je funkcija greške minimalizovana. U zavisnosti od statističkog modela mogu se definisati razni oblici funkcije greške, koje će kasnije voditi raznim algoritmima mašinskog učenja.

Statističko viđenje onlajn mašinskog učenja

U statističkim modelima učenja, za uzorak $(x_{i},y_{i})$ se pretpostavlja da je izabran iz odgovarajuće raspodele $p(x,y)$ , pa je dalje cilj minimizovati očekivani "rizik":

I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y)\,dp(x,y)\ .

Nadalje je cilj oceniti funkciju ${\hat {f}}$ metodom empirijske minimizacije rizika ili regularizovane empirijske minimizacije rizika (obično metod Tikhonov-e regularizacije). Odabir funkcije greške u ovim slučajevima dovodi do nekoliko dobro poznatih algoritama kao što su metoda najmanjih kvadrata i SVM metod mašinskog učenja. Čisto onlajn metod mašinskog učenja u ovom slučaju bi svoja predviđanja zasnovao samo na osnovu novog ulaza $(x_{t+1},y_{t+1})$ , trenutno najpreciznijeg prediktora $f_{t}$ i specifičnih, do tog koraka sačuvanih, dodatnih informacija (za čuvanje ovakvih informacija obično je rezervisan fiksni memorijski prostor, nezavisan od količine dostupnih podataka). Za razne formulacije problema, na primer za nelinearni metod jezgara pravo onlajn mašinsko učenje nije moguće sprovesti. Ipak neku vrstu modifikovanog odnosno hibridnog onlajn mašinskog učenja ipak je moguće sprovesti, recimo rekurzivnim algoritmom kada $f_{t+1}$ zavisi od $f_{t}$ i svih prethodnih tačaka $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ . U ovom slučaju prostorni zahtevi algoritma više nisu garantovano konstantni s obzirom da je algoritmu sada neophodno da čuva vrednosti svih prethodnih tačaka, ali će takvom rešenju vrlo verovatno trebati manje vremena za izvršavanje dodavanjem novih tačaka odnosno podataka u poređenju sa gorepomenutim oflajn mašinskim učenjem primenjenim na isti problem. Česta strategija za prevazilaženje prethodno navedenih problema jeste mašinsko učenje kombinovanjem prethodnih onlajn i oflajn metoda korišćenjem mini serija, koje procesiraju male grupe od $b\geq 1$ podataka u jednom koraku. Prethodno se može smatrati kao pseudo-onlajn učenje kada je $b$ mnogo manje od ukupnog broja tačaka tj. podataka za obradu u opštem slučaju. Tehnike mini serija mašinskog učenja se koriste kada imamo višestruki prolaz kroz podatke u procesu obrade, u cilju dobijanja optimitzovanih verzija algoritama automatskog učenja.

Primer: linearna aproksimacija (metod najmanjih kvadrata)

Linearni metod najmanjih kvadrata (ilustracija)

Jednostavan uvodni primer linearna metoda najmanjih kvadrata koristi se da objasni širinu ideja koje se provlače kroz korene onlajn mašinskog učenja. Ova matematička ideja jeste dovoljno opšta da se primeni u raznim drugim problemima, npr. sa ostalim konveksinm funkcijama greške.

Učenje u serijama

Ako u nadgledanom mašinskom učenju za funkciju greške uzmemo kvadratnu funkciju, minimizacija greške svodi se na minimizaciju kvadratne funkcije.

I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle ,y_{j})=\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}

gde je

x_{j}\in \mathbb {R} ^{d},w\in \mathbb {R} ^{d},y_{j}\in \mathbb {R}

.

Neka $X$ bude $i\times d$ matrica i neka je $Y$ matrica $i\times 1$ ciljanih vrednosti nakon prvih $i$ tačaka.

Pretpostavimo da je matrica kovarijanse^[2] $\Sigma _{i}=X^{T}X$ inverzibilna (inače se na nju primenjuju određeni metodi regularizacije), najbolje rešenje $f^{*}(x)=\langle w^{*},x\rangle$ linearnim metodom najmanjih kvadrata dato je sa

w^{*}=(X^{T}X)^{-1}X^{T}Y=\Sigma _{i}^{-1}\sum _{j=1}^{i}x_{j}y_{j}

.

Dalje, računanje matrice kovarijanse $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ povlači složenost $O(id^{2})$ , invertovanje matrice $d\times d$ povlači složenost $O(d^{3})$ , dok je ostalo množenje složenosti $O(d^{2})$ , dajući tako ukupnu složenost celog procesa $O(id^{2}+d^{3})$ . Kada je $n$ ukupan broj dostupnih tačaka i kada treba ponovo računati rešenje nakon dodavanja svake nove tačke $i=1,\ldots ,n$ , izloženo rešenje će imati ukupnu složenost $O(n^{2}d^{2}+nd^{3})$ . Primetimo da ako u memoriji čuvamo matricu kovarijanse $\Sigma _{i}$ , tada njeno ažuriranje na svakom koraku zahteva samo dodavanje $x_{i+1}x_{i+1}^{T}$ , koje je složenosti $O(d^{2})$ , što umanjuje ukupnu složenost na $O(nd^{2}+nd^{3})=O(nd^{3})$ , ali koristi dodatni prostor reda veličine $O(d^{2})$ da čuvamo $\Sigma _{i}$ .^[3]

Onlajn mašinsko učenje: rekurzivna metoda najmanjih kvadrata

Rekurzivni algoritam metode najmanjih kvadrata razmatra problem metode najmanjih kvadrata iz ugla onlajn mašinskog učenja. Isti se može prikazati na sledeći način. Neka je $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ i $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ . Rešenje linearnim metodom najmanjih kvadrata dato u prethodnom odeljku može biti izračunato sledećim iterativnim procesom:

\Gamma _{i}=\Gamma _{i-1}-{\frac {\Gamma _{i-1}x_{i}x_{i}^{T}\Gamma _{i-1}}{1+x_{i}^{T}\Gamma _{i-1}x_{i}}}

w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Prethodni iterativni algoritam može biti dokazan metodom matematičke indukcije po $i$ .^[4]. Prethodni dokaz pokazuje da je $\Gamma _{i}=\Sigma _{i}^{-1}$ . Složenost u $n$ koraka ovog algoritma jeste $O(nd^{2})$ , što je za red veličine efikasinje od odgovarajućeg prethodno izloženog algoritma za učenje u serijama. Prostorni zahtevi svakog $i$ -tog koraka ovde se svode na čuvanje matrice $\Gamma _{i}$ , što je konstanta $O(d^{2})$ . U slučaju kada $\Sigma _{i}$ nije regularna tj. inverzibilna, razmatra se funkcija greške $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ . Dalje je relativno jednostavo pokazati da naš algoritam radi sa početnim uslovom $\Gamma _{0}=(I+\lambda I)^{-1}$ , i iteracijama $\Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1}$ .^[3]

Stohastički metod gradijentnog spusta^[5]

Ako u prethodnom algoritmu formulu

\textstyle w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

zamenimo formulom

\textstyle w_{i}=w_{i-1}-\gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{i}\rangle ,y_{i})

gde $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ i $\gamma _{i}\in \mathbb {R}$ , dolazimo do nečega što se naziva stohastički metod gradijentnog spusta. Ovaj algoritam ima složenost za $n$ koraka redukovanu na $O(nd)$ . Prostorni zahtevi ovog algoritma u svakom $i$ -tom koraku su konstantni $O(d)$ .

Bilo kako bilo, veličinu koraka $\gamma _{i}$ treba pažljivo izabrati tako da se minimizuje očekivana greška. Izborom koraka $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ može se pokazati konvergencija prethodnog iterativnog niza u prosečnom broju koraka ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$ . Ovaj problem predstavlja specijalni slučaj oblasti stohastičke optimizacije, dobro poznate podoblasti optimizacije.^[3]

Postepeni stohastički metod gradijentnog spusta

U praksi moguće je izvoditi višestruke stohastičke prolaze (koji se u tom slučaju nazivaju ciklusi ili epohe) kroz podatke. Ovako modifikovani algoritam se naziva postepeni stohastički metod gradijentnog spusta i odgovara sledećoj iterativnoj formuli:

\textstyle w_{i}=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{t_{i}}\rangle ,y_{t_{i}})

.

Osnovna razlika u odnosu na prethodno izloženi metod jeste ta što u ovom slučaju niz $t_{i}$ se koristi da se odluči koja tačka će biti posećena u $i$ -tom koraku. Taj niz može biti stohastički ili deterministički. Broj iteracija više nije jednak broju tačaka (svaka tačka može biti korišćena više nego jednom). Ova metoda se može iskoristiti da minimizuje funkciju rizika^[6] Tehnike slične ovoj mogu biti korisne kada se uzimaju u obzir funkcije greške sastavljene od veoma velikog skupa podataka.

Kernel metode

Kerneli se mogu koristiti za proširivanje gorenavedenih algoritama na neparametrarske modele (ili modele gde parametri formiraju prostor beskonačne dimenzije). Odgovarajući postupak više neće biti u punom smislu metod onlajn mašinskog učenja, i umesto toga uključiče čuvanje svih podataka, ali će i dalje biti dosta brži od metoda grube sile. Naredna diskusija je ograničena na slučaj kvadratne funkcije greške, ali se jednostavno može proširiti na bilo koji slučaj konveksne funkcije greške. Jednostavnom matematičkom indukcijom^[3] moguće je pokazati da ako je $X_{i}$ matrica podataka a $w_{i}$ rezultat algoritma nakon $i$ -tog koraka stohastičkog metoda gradijentnog spusta, tada:

w_{i}=X_{i}^{T}c_{i}

gde je $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ i dodatno niz $c_{i}$ je dat rekurzivnom definicijom:

c_{0}=0

(c_{i})_{j}=(c_{i-1})_{j},j=1,2...,i-1

i

(c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x_{i}\rangle {\Big )}

Primetimo da je $\langle x_{j},x_{i}\rangle$ standardni kernel na $\mathbb {R} ^{d}$ , i prediktor jeste oblika

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

.

Dalje, ako opšti kernel označimo sa $K$ i ako je prediktor sada oblika:

f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)

tada će dokaz analogan prethodnom pokazati da se prediktor koji minimizuje grešku dobija promenom gornje rekurzije na

(c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x_{i}){\Big )}

.

Gorenavedeni izraz zahteva čuvanje svih podataka za ažuriranje $c_{i}$ . Ukupna vremenska složenost prethodne rekurzije kada se izračnavanja vrše za svaku $n$ -tu tačku je $O(n^{2}dk)$ , gde he $k$ složenost izračunavanja vrednosti kernela na paru tačaka domena.^[3]. Dakle, upotreba formi omogućila je da se pođe od prostora parametara konačne dimenzije $\textstyle w_{i}\in \mathbb {R} ^{d}$ i da se dođe do eventualno beskonačnodimenzionog prostora prezentovanog kernelom $K$ i umesto izvođenja rekurzije na prostoru parametara $\textstyle c_{i}\in \mathbb {R} ^{i}$ , čija je dimenzija jednaka dimenziji posmatranih podataka. Teorijski, prethodno je posledica teoreme o reprezentaciji (teorema matematičke statistike).

Progresivno učenje

Progresivno učenje je efektivan model učenja koji simulira proces učenja kod ljudi. To je proces kontinuiranog učenja direktno na osnovu iskustva. Tehnika progresivnog učenja (eng. PLN) u mašinskom učenju može učiti nove klase/labele dinamično, u pokretu.^[7] Iako onlajn mašinsko učenje može obrađivati nove uzorke podataka koji stižu sekvencijalno, ono ne može obrađivati nove klase podataka koje se dinamički uvode u sam model. Paradigma progresivnog učenja je nezavisna od broja ograničenja u klasama i može učiti tj. obrađivati nove klase dok istovremeno zadržava sva znanja iz prethodno obrađenih klasa. Kada god se naiđe na novu klasu podataka (klasu nepoznatu algortmu, onu koju do sada još nije susreo) klasifikator se automatski preoblikuje i parametri se obrađuju na način kojim se zadržava dosadašnje znanje. Ovakve tehnike su pogodne za aplikacije u praksi, gde je broj različitih klasa često nepoznat i potrebno je učenje u realnom vremenu.

Onlajn konveksna optimizacija

U tehnikama onlajn konveksne optimizacije (eng. OSO) skup hipoteza i funkcija greške su prisiljeno konveksni da bi algoritam dobio više prostora za učenje. Modifikovan algoritam sada ima sledeći oblik: Za $t=1,2...,T$

Algoritam dobija ulaz $x_{t}$
Algoritam računa $w_{t}$ iz fiksnog konveksog skupa $S$
Okolina vraća konveksnu funkciju greške $v_{t}:S\rightarrow \mathbb {R}$ .
Algoritam procenjuje napravnjene pogreške $v_{t}(w_{t})$ i ažurira model.

Na primer, razmotrimo onlajn mašinsko učenje kroz linearnu aproksimaciju metodom najmanjih kvadrata. Ovde težinski vektori dolaze iz konveksnog skupa $S=\mathbb {R} ^{d}$ , dok je konveksna funkcija greške data sa $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ . Primetimo uzgred da je u ovom slučaju $y_{t}$ implicitno poslato kroz $v_{t}$ .

Mećutim, neki problemi onlajn mašinskog učenja ne mogu se prirodno uklopiti u ovu metodu. Za primer posmatrajmo onlajn klasifikaciju kod koje domen i funkcija greške nisu konveksni. U ovakvim situacijama koriste se dve osnovne tehnike konvesksifikacije: randomizacija i zamena funkcije greške.

Neki od jednostavnih onlajn metoda konveksne optimizacije algoritama su:

Algoritam prati lidera (eng. FTL)

Najjednostavniji metod učenja jeste izbor (u trenutnom koraku) hipoteze koja ima najmanje gutitaka u svim prethodnim koracima. Ovaj algoritam nosi naziv Algoritam prati lidera (eng. Follow the leader) i dat je jednostavnom formulom za korak $t$ sa:

w_{t}=\operatorname {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)

.

Na ovaj metod može se gledati kao na pohlepni algoritam. U slučaju onlajn kvadratne optimizacije (gde je funkcija gubitka data sa $v_{t}(w)=||w-x_{t}||_{2}^{2}$ ), može se pokazati da granice regresije rastu sa $\log(T)$ . Kakogod, ovaj metod se ne može primeniti na druge važne familije modela mašinskog učenja kao sto je onlajn linearna optimizacija. Da bi se to uradilo, ovaj algoritam se modifikuje tako što se izvrši takozvana regularizacija.

Modifikovani algoritam prati lidera (eng. FTRL)

Modifikovani algoritam prati lidera predstavlja prirodnu modifikaciju prethodnog algoritma koja se dodaje da stabilizuje ponašanje istog, i da obezbedi bolje granice regresije. Funkcija regularizacije data je sa $R:S\rightarrow \mathbb {R}$ i učenje je dato u koraku $t$ kao:

w_{t}={\underset {w\in S}{\operatorname {arg\,min} }}\sum _{i=1}^{t-1}v_{i}(w)+R(w)

Kao poseban primer prethodnog razmotrimo slučaj onlajn linearne optimizacije gde je funkcija gubitka data u obliku $v_{t}(w)=\langle w,z_{t}\rangle$ . Takođe, imamo $S=\mathbb {R} ^{d}$ . Pretpostavimo da je funkcija regularizacije $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ odabrana za neki pozitivan broj $\eta$ . Pod ovakvim pretpostavkama, može se dokazati da iterativni proces minimizacije ima sleceći oblik:

w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t}

Primetimo da prethodno može biti zapisano i kao $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ , što izgleda baš kao onlajn metoda gradijentnog spusta.

Ako je umesto toga $S$ neki konveksan podskup od $\mathbb {R} ^{d}$ , $S$ bi trebalo projektovati, što dovodi do promene pravila ažuriranja

w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _{t+1})

Ovaj algoritam poznat je i pod imenom lenja projekcija, zbog toga što vektor $\theta _{t+1}$ akumulira gradijent. Takođe, poznat je i pod imenom dvostruki Nesterov srednji algoritam. U ovom slučaju, slučaju linearne funkcije gubitka i kvadratne regularizacije, granica regerije je u okvirima složenosti $O({\sqrt {T}})$ , i stoga prosečna regresija ide ka $0$ što i želimo.

Ostali algoritmi

Kvadratno regularisani algoritam pratnje lidera vodi do lenje projekcije gradijentnog metoda kao što je opisano u prethodnim pasusima. Da bi se gore opisano koristilo za proizvoljne konveksne funkcije i regularizatore može se koristiti slična modifikacija. Drugi algoritam se naziva predviđanje stručnim savetima. U ovom slučaju skup hipoteza sastoji se od $d$ funkcija. Distribucija $w_{t}\in \Delta _{d}$ nad $d$ ekspertskih funkcija se održava, i predviđanje se vrši uzimanjem uzoraka iz ove distribucije. U slušaju Euklidske regularizacije, može se pokazati da je granica regresije data sa $O({\sqrt {T}})$ , sto može biti poboljšano do ganice $O({\sqrt {\log T}})$ ako se koristi bolja funkcija regularizacije.

Interpretacije onlajn mašinskog učenja

Paradigma onlajn mašinskog učenja interesantno ima različite interpretacije u zavisnosti od izbora metoda učenja, od kojih svaka ima različite implikacije u pogledu prediktivnog kvaliteta sekvence funkcija $f_{1},f_{2},\ldots ,f_{n}$ . Za ovu diskusiju koristi se stohastički algoritam gradijentnog spusta. Kao sto je gore navedeno, njegova rekurzija data je sa

\textstyle w_{t}=w_{t-1}-\gamma _{t}\nabla V(\langle w_{t-1},x_{t}\rangle ,y_{t})

.

Prva interpretacija razmatra metod stohastičkog algoritma gradijentnog spusta primenjenog na problem minimizacije očekivanog rizika $I[w]$ definisanog ranije.^[8] Zaista, u slučaju beskonačnog strimovanja odnosno dotoka podataka, kao u primeru $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ pretpostavljeno je da isti dolaze iz raspodele $p(x,y)$ , za niz gradijenata $V(\cdot ,\cdot )$ u prethodnim iteracijama pretpostavlja se da je uzorak stohastičkih procena gradijenata očekivanog rizika $I[w]$ i stoga je moguće primeniti rezultate metoda stohastičkog gradijentnog spusta za ograničenje devijacije $I[w_{t}]-I[w^{\ast }]$ , gde je $w^{\ast }$ minimizator za $I[w]$ .^[9]. Ova interpretacija je takođe validna i u slučaju konačnog skupa dostupnih podataka. Iako sa višestrukim prolazom kroz podatke gradijenti više nisu nezavisni, i dalje se prethodni rezultati mogu koristiti u nekim situacijama.

Druga interpretacija se primenjuje na slučaj konačnog skupa podataka i razmatra se Stohastički gradijentni spust kao primer metode postepenog gradijentnog spusta.^[6] U ovom slučaju posmatra se empirijski rizik dat sa:

I_{n}[w]={\frac {1}{n}}\sum _{i=1}^{n}V(\langle w,x_{i}\rangle ,y_{i})\ .

Kako su gradijenti $V(\cdot ,\cdot )$ u ovoj metodi takođe stohastičke procene gradijenta od $I_{n}[w]$ , tumačenje ovog metoda je takođe povezano sa metodom stohastičkog gradijentnog spusta, ali se primenjuje u cilju minimizovanja empirijskog rizika umesto minimizacije očekivanog rizika. Kako se ovakva interpretacija koncentriše na empirijski rizik a ne na očekivani rizik, višestruki prolasci kroz podatke su dozvoljeni i zapravo vode do strožih granica devijacije $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ , gde je $w_{n}^{\ast }$ minimizator od $I_{n}[w]$ .

Implementacije onlajn mašinskog učenja

Vowpal Wabbit: Otvoreni softver, brz onlajn sistem mašinskog učenja što je značajno za podršku brojnim redukcijama mašinskog učenja, podržavajući izbor različitih funkcija gubitaka i algoritama optimizcije. Koristi takozvani trik sa heširanjem za ograničavanje veličine skupa funkcija, nezavisno od količine podataka koji se obrađuju.
scikit-learn: Obezbeđuje izvanredne implementacije algoritama za
- Klasifikaciju.
- Regresiju
- Klastering, itd.

Vidi još

Reference

^ Različiti autori koriste razne klasifikacije oblasti mašinskog učenja; Očekuje se da će terminologija vremenom iskonvergirati
^ Matrica čiji element na poziciji $ij$ predstavlja kovarijansu između i ^tog i j ^tog elementa originalnog vektora
^ ^a ^b ^v ^g ^d L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning
^ Yin & Kushner 2003, str. 8–12.
^ Stohastička optimizacija metoda gradijentnog spusta
^ ^a ^b Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.
^ Venkatesan, Rajasekar; Meng Joo, Er (2016). „A novel progressive learning technique for multi-class classification”. Neurocomputing. 207: 310—321. S2CID 12510650. arXiv:1609.00085  . doi:10.1016/j.neucom.2016.05.006.
^ Bottou, Léon (1998). „Online Algorithms and Stochastic Approximations”. Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
^ Kushner, Harold; George Yin, G. (2003). Stochastic Approximation and Recursive Algorithms and Applications (2nd izd.). New York: Springer. ISBN 978-0-387-00894-3.

Literatura

Yin, G. George; Kushner, Harold J. (2003). Stochastic approximation and recursive algorithms and applications (Second izd.). New York: Springer. str. 8–12. ISBN 978-0-387-21769-7.

[1] Različiti autori koriste razne klasifikacije oblasti mašinskog učenja; Očekuje se da će terminologija vremenom iskonvergirati

[2] Matrica čiji element na poziciji $ij$ predstavlja kovarijansu između i ^tog i j ^tog elementa originalnog vektora

[lorenzo-3] v ^g ^d L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning

[FOOTNOTEYinKushner20038–12-4] Yin & Kushner 2003, str. 8–12.

[5] Stohastička optimizacija metoda gradijentnog spusta

[bertsekas-6] Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.

[7] Venkatesan, Rajasekar; Meng Joo, Er (2016). „A novel progressive learning technique for multi-class classification”. Neurocomputing. 207: 310—321. S2CID 12510650. arXiv:1609.00085  . doi:10.1016/j.neucom.2016.05.006.

[8] Bottou, Léon (1998). „Online Algorithms and Stochastic Approximations”. Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[kushneryin-9] Kushner, Harold; George Yin, G. (2003). Stochastic Approximation and Recursive Algorithms and Applications (2nd izd.). New York: Springer. ISBN 978-0-387-00894-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]