Metoda potpornih vektora

 

U mašinskom učenju, metoda potpornih vektora je model učenja pod nadzorom sa pripadajućim algoritmima učenja koji analiziraju podatke za klasifikaciju i regresionu analizu . Razvio ju je Vladimir Vapnik sa kolegama u AT&T Bell Laboratorijama. Metoda potpornih vektora je jedna od najpouzdanijih metoda predviđanja, zasnovana na statističkim okvirima učenja ili VC teoriji koju su predložili Vapnik (1982, 1995) i Červoninks (1974). Imajući u vidu skup primera za obuku, od kojih je svaki označen kao da pripada jednoj od dve kategorije, MPV algoritam za obuku gradi model koji dodeljuje nove primere jednoj ili drugoj kategoriji, čineći ga nenagađajućim binarnim linearnim klasifikatorom . MPV preslikava primere obuke na tačke u prostoru kako bi maksimizirao širinu jaza između dve kategorije. Novi primeri se zatim mapiraju u isti prostor i predviđaju da pripadaju kategoriji na osnovu koje strane jaza padaju.

Pored izvođenja linearne klasifikacije, MPV-ovi mogu efikasno da izvrše nelinearnu klasifikaciju koristeći ono što se naziva trik jezgra, implicitno mapirajući svoje ulaze u prostore karakteristika visoke dimenzije.

Kada podaci nisu označeni, nadgledano učenje nije moguće i potreban je pristup učenju bez nadzora, koji pokušava da pronađe prirodno grupisanje podataka u grupe, a zatim mapira nove podatke u ove formirane grupe. Algoritam za grupisanje potpornih vektora [1], koji su kreirali Hava Sigelman i Vladimir Vapnik, primenjuje statistiku vektora podrške, razvijenu u algoritmu motode podžanih vektora, za kategorizaciju neoznačenih podataka, i jedan je od najčešće korišćenih algoritama za grupisanje u inustrijskoj aplikaciji.[traži se izvor]

Motivacija

uredi
 
H1 ne razdvaja klase. H2 razdvaja, ali samo sa malom marginom. H3 ih razdvaja sa maksimalnom marginom.

Klasifikacija podataka je uobičajen zadatak u mašinskom učenju . Pretpostavimo da svaka data tačka pripada jednoj od dve klase, a cilj je da se odluči u kojoj će klasi biti nova tačka podataka . U slučaju metode potpornih vektora, tačka podataka se posmatra kao   -dimenzionalni vektor (lista   brojeva), i želimo da znamo da li možemo da odvojimo takve tačke sa a   -dimenzionalnom hiperravni . Ovo se zove linearni klasifikator . Postoji mnogo hiperravni koje mogu klasifikovati podatke. Razuman izbor kao najbolja hiperravna je ona koji postiže najveće razdvajanje, ili marginu, između dve klase. Zato biramo hiperravan tako da je rastojanje od nje do najbliže tačke podataka na svakoj strani maksimizirano. Ako takva hiperravan postoji, poznata je kao hiperravan maksimalne margine, a linearni klasifikator koji on definiše je poznat kao klasifikator maksimalne margine; ili ekvivalentno, perceptron optimalne stabilnosti .[traži se izvor]

Definicija

uredi

Model potpornih vekotra konstruiše hiperravan ili skup hiperravni u visoko- ili beskonačno-dimenzionalnom prostoru, koji se može koristiti za klasifikaciju, regresiju ili druge zadatke kao što je otkrivanje odstupanja. [2] Dobro razdvajanje se postiže hiperravninom koja ima najveću udaljenost do najbliže tačke podataka za obuku bilo koje klase (funkcionalna margina), pošto generalno što je veća margina, to je manja greška generalizacije klasifikatora. [3]

 
Kernel mašina

Dok se originalni problem može navesti u konačnodimenzionalnom prostoru, često se dešava da skupovi diskriminanti nisu linearno odvojivi u tom prostoru. Iz tog razloga, predloženo je [4] da se originalni konačno-dimenzionalni prostor preslika u prostor mnogo veće dimenzije, što verovatno olakšava razdvajanje u tom prostoru. Da bi računarsko opterećenje bilo razumno, mapiranja koje koriste MPV šeme su dizajnirane da obezbede da se tačkasti proizvodi parova vektora ulaznih podataka mogu lako izračunati u smislu promenljivih u originalnom prostoru, definisanjem u smislu funkcije jezgra   odabrano da odgovara problemu. [5] Hiperravne u višedimenzionalnom prostoru su definisane kao skup tačaka čiji je tačkasti proizvod sa vektorom u tom prostoru konstantan, pri čemu je takav skup vektora ortogonalan (a time i minimalan skup vektora koji definiše hiperravan. Vektori koji definišu hiperravne mogu se izabrati da budu linearne kombinacije sa parametrima   slike vektora obeležja   koji se javljaju u bazi podataka. Sa ovim izborom hiperravnine, tačke   u prostoru obeležja koji su preslikani u hiperravninu definisani su relacijom   Imajte na umu da ako   postaje mali kao   raste dalje od  , svaki član u zbiru meri stepen bliskosti ispitane tačke   do odgovarajuće tačke baze podataka   . Na ovaj način, zbir gornjih jezgara može da se koristi za merenje relativne blizine svake ispitne tačke tačkama podataka koje potiču iz jednog ili drugog skupa koji se diskriminiše. Obratite pažnju na činjenicu da je skup tačaka   preslikan u bilo koju hiperravninu može biti prilično zamršen kao rezultat, omogućavajući mnogo složeniju diskriminaciju između skupova koji uopšte nisu konveksni u originalnom prostoru.

Aplikacije

uredi

Metode potpornih vekotra se mogu koristiti za rešavanje različitih problema iz stvarnog sveta:

  • Metode potpornih vekotra su korisne u kategorizaciji teksta i hiperteksta, jer njihova primena može značajno smanjiti potrebu za označenim instancama obuke i u standardnim induktivnim i transduktivnim postavkama. [6] Neke metode za plitko semantičko raščlanjivanje zasnovane su na metodama potpornih vekotra. [7]
  • Klasifikacija slika se takođe može izvršiti pomoću MPV-a. Eksperimentalni rezultati pokazuju da MPV postižu znatno veću tačnost pretrage od tradicionalnih šema za preciziranje upita nakon samo tri do četiri kruga povratnih informacija o relevantnosti. Ovo važi i za sisteme za segmentaciju slika, uključujući i one koji koriste modifikovanu verziju MPV-a koja koristi privilegovani pristup kako je predložio Vapnik. [8] [9]
  • Klasifikacija satelitskih podataka kao što su SAR podaci korišćenjem nadgledanog MPV. [10]
  • Rukom pisani znakovi se mogu prepoznati pomoću MPV. [11] [12]
  • Algoritam MPV ima široku primenu u biologijo i drugim naukama. Korišćeni su za klasifikaciju proteina sa do 90% ispravno klasifikovanih jedinjenja. Permutacioni testovi zasnovani na MPV težinama su predloženi kao mehanizam za interpretaciju MPV modela. [13] [14] Metode potpornih vekotra su takođe korišćene za tumačenje MPV modela u prošlosti. [15] Posthok interpretacija modela potpornih vektora u cilju identifikacije karakteristika koje model koristi za predviđanje je relativno nova oblast istraživanja od posebnog značaja u biološkim naukama.

Istorija

uredi

Originalni MPV algoritam su izmislili Vladimir N. Vapnik i Aleksej Ja. Červoninks 1963. godine. Godine 1992. Bernhard Boser, Izabela Gujon i Vladimir Vapnik su predložili način da se stvore nelinearni klasifikatori primenom trika jezgra da bi se dobile maksimalne margine hiperravni. [4] Inkarnaciju „meke margine“, kao što se uobičajeno koriste softverski paketi, predložili su Korina Kortes i Vapnik 1993. godine i objavljeni 1995. godine [16]

Linearna MPV

uredi
 
Hiperravan maksimalne margine i margine za MPV obučen sa uzorcima iz dve klase. Uzorci na margini nazivaju se vektori podrške.

Imamo skup podataka za obuku od   tačke forme

 

gde   su ili 1 ili −1, od kojih svaki ukazuje na klasu do koje je tačka   pripada. Svaki   je  -dimenzionalni realni vektor. Želimo da pronađemo "hiperravan maksimalne margine" koja deli grupu tačaka   za koje   iz grupe bodova za koje  , koji je definisan tako da rastojanje između hiperravni i najbliže tačke   iz bilo koje grupe bude maksimiziran.

Bilo koja hiperravan se može napisati kao skup tačaka   ukoliko ispunjava:

 

gde je   (ne nužno normalizovan) vektor normale na hiperravan. Ovo je slično Hesenovom normalnom obliku, osim toga   nije nužno jedinični vektor. Parametar   određuje pomak hiperravni od početka duž vektora normale   .

Tvrda margina

uredi

Ako su trening podaci linearno razdvojivi, možemo izabrati dve paralelne hiperravne koje razdvajaju dve klase podataka, tako da je rastojanje između njih što je moguće veće. Područje ograničeno sa ove dve hiperravne naziva se „margina“, a hiperravan maksimalne margine je hiperravan koja se nalazi na pola puta između njih. Sa normalizovanim ili standardizovanim skupom podataka, ove hiperravne se mogu opisati sldećim jednačinama:

  (sve na ili iznad ove granice priprada jednoj klasi, sa oznakom 1)

i

  (sve na ili ispod ove granice pripada drugoj klasi, sa oznakom −1).

Geometrijski, rastojanje između ove dve hiperravne je  , [17] tako da bi maksimizovali rastojanje između ravni koje želimo da minimiziramo   . Rastojanje se izračunava korišćenjem jednačine udaljenosti tačke od ravni . Takođe moramo da sprečimo da tačke podataka padnu na marginu, dodajemo sledeće ograničenje: za svaku   bilo

 , ako je  ,

ili

 , ako je   .

Ovi uslovi navode da svaka tačka podataka mora ležati na ispravnoj strani margine.

Ovo se može napisati i kao:

 

Možemo da sastavimo sve ovo i dobijemo problem optimizacije:

„Minimizuj   na   za   ."

  i   koji rešavaju ovaj problem određuju naš klasifikator,   gde je   funkcija znaka .

Važna posledica ovog geometrijskog opisa je da je hiperravan maksimalne margine potpuno određena vekotrom   koji mu je najbliži. Ovi   nazivaju se vektori podrške .

Meka margina

uredi

Za proširenje MPV na slučajeve u kojima podaci nisu linearno odvojivi, funkcija gubitka zgloba je od pomoći

 

Napomenuti da je   i-ti cilj (to jest, u ovom slučaju je 1 ili −1), i   je i-ti izlaz.

Ova funkcija je nula ako je uslov iz (1) zadovoljen, drugim rečima, ako   leži na ispravnoj strani margine. Za podatke na pogrešnoj strani margine, vrednost funkcije je proporcionalna udaljenosti od tačke od margine.

Cilj optimizacije je da se minimizuje

 

gde je parametar   određuje kompromis između povećanja veličine margine i obezbeđivanja da   leže na ispravnoj strani margine. Dakle, za dovoljno male vrednosti od  , ponašaće se slično MPV-a sa tvrdom marginom, ako se ulazni podaci linearno klasifikuju, ali će i dalje naučiti da li je pravilo klasifikacije održivo ili ne. (Ovaj parametar   se takođe naziva C, npr. u <a href="https://en.wikipedia.org/wiki/LIBSVM" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="534">LIBSVM</a> . )

Nelinearna klasifikacija

uredi
 
Kernel mašina

Originalni algoritam maksimalne margine hiperavni koji je predložio Vapnik 1963. godine konstruisao je linearni klasifikator . Međutim, 1992. godine, Bernhard Boser, Izabel Gujon i Vladimir Vapnik su predložili način za kreiranje nelinearnih klasifikatora primenom trika jezgra (prvobitno predložen od Aizermana [18] ) za maksimalne margine hiperravni. [4] Dobijeni algoritam je formalno sličan, osim što je svaki tačkasti proizvod zamenjen nelinearnom funkcijom jezgra. Ovo omogućava algoritmu da uklopi hiperravan maksimalne margine u transformisani prostor obeležja. Transformacija može biti nelinearna, a transformisani prostor višedimenzionalan; iako je klasifikator hiperravna u transformisanom prostoru obeležja, on može biti nelinearan u originalnom ulaznom prostoru.

Važno je napomenuti da rad u višedimenzionalnom prostoru karakteristika povećava grešku generalizacije metode potpornih vektora, ukoliko ima dovoljno trening uzoraka algoritam će i dalje radi dobro.

Neka uobičajena jezgra uključuju:

  • Polinom (homogen) :   .
  • Polinom (nehomogen):   .
  • Gausova radijalna bazna funkcija :   za   . Ponekad se parametrizuju korišćenjem   .
  • Hiperbolički tangent :   za neke (ne za sve)   i   .

Jezgro je povezano sa transformacijom   po jednačini   . Vrednost W je takođe u transformisanom prostoru, sa   . Tačkasti proizvodi sa w za klasifikaciju se ponovo mogu izračunati pomoću trika jezgra, tj   .

Izračunavanje klasifikatora MPV

uredi

Izračunavanje (meke margine) klasifikatora MPV dovodi do minimiziranja izraza forme

 

Fokusiramo se na klasifikator meke margine pošto, kao što je gore navedeno, odabir dovoljno male vrednosti za   daje klasifikator tvrde margine za linearno klasifikujuće ulazne podatke. Klasični pristup, koji uključuje svođenje (2) na problem kvadratnog programiranja, detaljno je opisan u nastavku. Zatim će se raspravljati o novijim pristupima kao što su sub-gradijentalni spust i koordinatni spust.

Primal

uredi

Minimizovanje izraza (2) se može napisati kao problem ograničene optimizacije sa diferencijabilnom ciljnom funkcijom ovako:

Za svaki   uvodimo promenljivu   . Napomenuti da je   najmanji nenegativni broj koji zadovoljava(ispunjava)  

Stoga možemo prepisati problem optimizacije na sledeći način

 
 

Ovo se zove primarni problem.

Rešavanjem Lagranžovog duala gornjeg problema dobija se uprošćeni problem

 
 

Ovo se zove dualni problem. Pošto je problem dvostruke maksimizacije kvadratna funkcija od   a podleže linearnim ograničenjima, efikasno se rešava pomoću algoritama kvadratnog programiranja.

Ovde, promenljive   definisane su tako da

  .

Štaviše,   tačno kada   leži na ispravnoj strani margine, i   kada   leži na granici margine. Sledi da se   može napisati kao linearna kombinacija potpornih vekotra.

Ofset,  , može se povratiti pronalaženjem   na granici margine i rešavanjem:

 

(Napomenuti da je   jer je   . )

Trik jezgra

uredi
 
Trening primer MPV sa jezgrom datim sa φ(( a, b )) = ( a, b, a 2 + b 2 )

Pretpostavimo sada da bismo želeli da naučimo pravilo nelinearne klasifikacije koje odgovara pravilu linearne klasifikacije za transformisane tačke podataka   Štaviše, data nam je funkcija jezgra   koja zadovoljava   .

Poznato nam je da vektor klasifikacije   u transformisanom prostoru zadovoljava

 

gde se   dobija se rešavanjem zadatka optimizacije

 
 

Koeficijenti   se mogu rešiti korišćenjem kvadratnog programiranja, kao i ranije. Opet, možemo pronaći neki indeks   tako da  , tako da   leži na granici margine u transformisanom prostoru, a zatim možemo rešiti

 

konačno,

 

Savremene metode

uredi

Najnoviji algoritmi za pronalaženje klasifikatora MPV uključuju sub-gradijentni spus i koordinatni spust. Obe tehnike pokazale su se da nude značajne prednosti u odnosu na tradicionalni pristup kada se radi sa velikim, retkim skupovima podataka — metode sub-gradijenta su posebno efikasne kada postoji mnogo primera za obuku i koordinisani spust kada je dimenzija prostora obeležja velika.

Sub-gradijenti spust

uredi

Sub-gradijentni spust algoritam za MPV radi direktno sa izrazom

 

Napomenuti da   je konveksna funkcija od   i   . Kao takav, tradicionalni gradijenti spust (ili SGS) se može prilagoditi, gde umesto uzimanja koraka u pravcu funkcije gradijenta, korak se uzima u pravcu vektora izabranog iz funkcije sub-gradijenta . Ovaj pristup ima prednost u tome što se, za određene implementacije, broj iteracija ne povećava sa  , broj tačaka podataka. [19]

Koordinatni spust

uredi

Algoritmi koordinatnog spusta za MPV rade iz dualnog problema

 
 

Za svako  , iterativno, koeficijent   je podešen u pravcu   . Zatim, rezultujući vektor koeficijenata   projektuje se na najbliži vektor koeficijenata koji zadovoljava date uslove. (Obično se koriste euklidske udaljenosti. ) Proces se zatim ponavlja sve dok se ne dobije skoro optimalan vektor koeficijenata. Dobijeni algoritam je izuzetno brz u praksi, iako je malo garancija performansi dokazano. [20]

Empirijska minimizacija rizika

uredi

Gore opisana motoda potpornih vekotra meke margine je primer empirijskog algoritma za smanjenje rizika (ERM) za gubitak zgloba . Gledano na ovaj način, metoda potpornih vekotra pripadaju prirodnoj klasi algoritama za statističko zaključivanje, a mnoge od njegovih jedinstvenih karakteristika su posledica ponašanja gubitka zgloba. Ova perspektiva može pružiti dalji uvid u to kako i zašto MPV funkcionišu i omogućiti nam da bolje analiziramo njihova statistička svojstva.

Minimizacija rizika

uredi

U nadgledanom učenju, daje se trening skup primera   sa labelama  , i želimo da predvidimo   za dato   . Da bi se to uradilo, formira se hipoteza,  , tako da je   "dobra" aproksimacija za   . "Dobra" aproksimacija se obično definiše uz pomoć funkcije gubitka,  , što karakteriše koliko je loše   kao predviđanje za   . Zatim bismo želeli da izaberemo hipotezu koja minimizira očekivani rizik :

 

U većini slučajeva ne znamo zajedničku raspodelu   direktno. U ovim slučajevima, uobičajena strategija je da se izabere hipoteza koja minimizuje empirijski rizik:

 

Pod određenim pretpostavkama o redosledu slučajnih promenljivih   (na primer, da su generisani konačnim Markovljevim procesom), ako je skup hipoteza koje se razmatraju dovoljno mali, minimizator empirijskog rizika će se blisko približiti minimizatoru očekivanog rizika kako   postaje veliko. Ovaj pristup se naziva empirijska minimizacija rizika ili ERM.

Regularizacija i stabilnost

uredi

Da bi problem minimizacije imao dobro definisano rešenje, moramo da postavimo neka ograničenja na skup   hipoteza koje se razmatraju. Ako je   normirani prostor (kao što je slučaj sa MPV), posebno efikasna tehnika je razmatranje samo tih hipoteza   za koje   . Ovo je jednako izricanju kazne regularizacije  , i rešavanje novog problema optimizacije

 

Ovaj pristup se naziva Tihonovska regularizacija .

  može biti neka mera složenosti hipoteze  , tako da prednost dobijaju jednostavnije hipoteze.

MPV i gubitak zgloba

uredi

Podsetimo se da je MPV klasifikator (meke margine)  izabran da minimizuje sledeći izraz:

 

Vidimo da je tehnika MPV ekvivalentna empirijskoj minimizaciji rizika sa Tihonovom regularizacijom, gde je u ovom slučaju funkcija gubitka gubitak zgloba.

 

Iz ove perspektive, MPV je usko povezana sa drugim osnovnim klasifikacionim algoritmima kao što su regularizovani najmanji kvadrati i logistička regresija . Razlika između ova tri algoritma leži u izboru funkcije gubitka: regularizovani najmanji kvadrati predstavljaju empirijsku minimizaciju rizika sa kvadratnim gubitkom,   ; logistička regresija koristi log-gubitak,

 

Ciljne funkcije

uredi

Razlika između gubitka zgloba i ovih drugih funkcija gubitka najbolje se može izraziti u smislu ciljnih funkcija – funkcija koja minimizira očekivani rizik za dati par slučajnih prmoneljivih   .

Konkretno, neka   označava   uslovljeno događajem koji daje   . U postavci klasifikacije imamo:

 

Dakle, optimalni klasifikator je:

 

Za kvadratni gubitak, ciljna funkcija je funkcija uslovnog očekivanja,   ; Za logistički gubitak, to je logit funkcija,   . Dok obe ove ciljne funkcije daju ispravan klasifikator, kao  , one nam daju više informacija nego što nam je potrebno. U stvari, one nam daju dovoljno informacija da u potpunosti opišemo raspodelu po   .

S druge strane, može se proveriti da li je ciljna funkcija za gubitak zgloba tačna   . Dakle, u dovoljno bogatom prostoru hipoteza — ili ekvivalentno, za odgovarajuće odabrano jezgro — MPV klasifikator će konvergirati najjednostavnijoj funkciji (u smislu   ) koji ispravno klasifikuje podatke. Ovo proširuje geometrijsku interpretaciju MPV-a – za linearnu klasifikaciju, empirijski rizik je minimiziran bilo kojom funkcijom čije margine leže između vektora podrške, a najjednostavniji od njih je klasifikator maksimalne margine. [21]

Svojstva

uredi

MPV pripadaju porodici generalizovanih linearnih klasifikatora i mogu se tumačiti kao proširenje perceptrona . Oni se takođe mogu smatrati posebnim slučajem Tihonovske regularizacije . Posebno svojstvo je da oni istovremeno minimiziraju grešku empirijske klasifikacije i maksimiziraju geometrijsku marginu ; stoga su poznati i kao klasifikatori maksimalne margine.

Poređenje MPV-a sa drugim klasifikatorima su napravili Meier, Leisch i Hornik. [22]

Izbor parametara

uredi

Efikasnost MPV-a zavisi od izbora jezgra, parametara jezgra i parametra meke margine   . Uobičajeni izbor je Gausovo jezgro, koje ima jedan parametar   . Najbolja kombinacija od   i   se često bira pretragom mreže sa eksponencijalno rastućim sekvencama od   i  , na primer,   ;   . Obično se svaka kombinacija izbora parametara proverava korišćenjem unakrsne validacije i biraju se parametri sa najboljom tačnošću unakrsne provere. Alternativno, nedavni rad u Bajesovoj optimizaciji se može koristiti za odabir   i  , što često zahteva procenu mnogo manjeg broja kombinacija parametara od pretraživanja mreže. Konačni model, koji se koristi za testiranje i klasifikaciju novih podataka, se zatim obučava na celom skupu za obuku koristeći izabrane parametre.

Problemi

uredi

Potencijalni nedostaci MPV-a uključuju sledeće aspekte:

  • Zahteva potpuno označavanje ulaznih podataka
  • Nekalibrirane verovatnoće članstva u klasama — MPV proizilazi iz Vapnikove teorije koja izbegava procenu verovatnoće na konačnim podacima
  • MPV je direktno primenljiva samo za dvoklasne zadatke. Stoga se moraju primeniti algoritmi koji svode zadatak više klasa na nekoliko binarnih problema.
  • Parametre rešenog modela je teško interpretirati.

Nadogradnje

uredi

Metoda grupisanja potpornih vektora

uredi

Metoda grupisanja potpornih vektora je sličana metoda koja se takođe zasniva na funkcijama jezgra, ali je prikladaan za učenje bez nadzora. Smatra se fundamentalnom metodom u nauci o podacima .[traži se izvor]

Metoda potpornih vekotra sa više klasa

uredi

Multiklasna MPV ima za cilj da dodeli oznake instancama korišćenjem metode potpornih vekotra, gde su oznake izvučene iz konačnog skupa nekoliko elemenata.

Dominantan pristup za to je svođenje jednog problema više klasa na višestruke probleme binarne klasifikacije. [23] Uobičajene metode za takvu optimizaciju uključuju: [23] [24]

  • Pravljenje binarnih klasifikatora koji prave razliku između jedne od oznaka i ostatka ( jedan protiv svih ) ili između svakog para klasa ( jedan protiv jedanog ). Klasifikacija novih instanci za slučaj jedan naspram svih vrši se strategijom pobednik uzima sve, u kojoj klasifikator sa najvećom izlaznom funkcijom dodeljuje klasu (važno je da izlazne funkcije budu kalibrisane da bi proizvele uporedive rezultate ). Za pristup jedan protiv jedan, klasifikacija se vrši strategijom glasanja sa maksimalnim brojem pobeda, u kojoj svaki klasifikator dodeljuje instancu jednoj od dve klase, zatim se glas za dodeljenu klasu povećava za jedan glas, i na kraju klasa sa najviše glasova određuje klasifikaciju instance.
  • Usmereni aciklični graf MPV (DAGSVM) [25]
  • Ispravljanje izlaznih kodova [26]

Kramer i Singer su predložili višeklasnu MPV koji baca problem višeklasne klasifikacije u jedan problem optimizacije, umesto da ga dekomponuje na višestruke probleme binarne klasifikacije. [27] Vidi takođe Li, Lin i Vaba [28] [29] i Van den Burg i Groenen. [30]

Transduktivna metoda potpornih vekotra

uredi

Transduktivna metoda potpornih vekotra prošire MPV tako što mogu da tretiraju i delimično obeležene podatke u polunadgledanom učenju prateći principe transdukcije . Ovde, pored kompleta za obuku  , učeniku se takođe daje set

 

test primera koje treba klasifikovati. Formalno, transduktivna metoda potpornih vektora je definisana sledećim primarnim problemom optimizacije: [31]

Minimizovati (u   )

 

podleže (za bilo koje   i bilo koje   )

 
 

i

 

Transduktivne metode potpornih vektora je predstavio Vladimir N. Vapnik 1998. godine.

Strukturirana MPV

uredi

MPV su generalizovane na strukturirane MPV, gde je prostor za oznake strukturiran i verovatno beskonačne veličine.

Regresija

uredi
 
Regresija vektora podrške (predviđanje) sa različitim pragovima ε . Kako se ε povećava, predviđanje postaje manje osetljivo na greške.

Verziju MPV za regresiju predložili su 1996. Vladimir N. Vapnik, Haris Draker, Kristofer Džej Si Berdžes, Linda Kaufman i Aleksandar J. Smola. [32] Ovaj metod se naziva regresija vektora potpora. Model proizveden klasifikacijom vektora podrške (kao što je gore opisano) zavisi samo od podskupa podataka o obuci, jer funkcija troškova za izgradnju modela ne brine o tačkama obuke koje se nalaze izvan margine. Analogno tome, model koji proizvodi SVR(support-vector regression) zavisi samo od podskupa podataka o obuci, jer funkcija greške za izgradnju modela ignoriše sve podatke o obuci koji su bliski predviđanju modela. Drugu MPV verziju poznatu kao metoda potpornih vektora najmanjih kvadrata (LS-SVM) su predložili Suikens i Vandevalle. [33]

Obuka originalnog SVR-a znači rešavanje [34]

minimizirati  
za  

gde je   uzorak za obuku sa ciljnom vrednošću   . Unutrašnji proizvod plus presretanje   je predviđanje za taj uzorak, i   je slobodan parametar koji služi kao prag: sva predviđanja moraju biti unutar   raspona istinitih predviđanja. "Labave" promenljive se obično dodaju u gore navedenom da bi se omogućile greške i omogućila aproksimacija u slučaju da je gornji problem neizvodljiv.

Bajesova MPV

uredi

Polson i Skot su 2011. pokazali da MPV prihvata Bajesovu interpretaciju kroz tehniku povećanja podataka . [35] U ovom pristupu MPV se posmatra kao grafički model (gde su parametri povezani preko raspodele verovatnoće). Ovaj detaljni pregled omogućava primenu Bajesove tehnike na MPV, kao što je fleksibilana funkcija modeliranja, automatsko hiperparametersko podešavanje, i predvidljivu nesigurnu kvantifikaciju . „Nedavno je Florijan”. arXiv:search/stat?searchtype=author&query=Wenzel%2C+F  Proverite vrednost parametra |arxiv= (pomoć).  Vencel razvio skalabilnu verziju Bajesovoe MPV, omogućavajući primenu Bajesovoe MPV na velike podatke . [36] Florian Venzel je razvio dve različite verzije, šemu varijacionog zaključivanja (VI) za Bajesov model potpornih vektora sa jezgrom (SVM) i stohastičku verziju (SVI) za linearni Bajesov MPV. [37]

Implementacija

uredi

Parametri hiperravni maksimalne margine su izvedeni rešavanjem optimizacije. Postoji nekoliko specijalizovanih algoritama za brzo rešavanje problema kvadratnog programiranja (KP) koji proizilazi iz MPV, uglavnom se oslanjajući na heuristiku za razbijanje problema na manje delove kojima je lakše upravljati.

Drugi pristup je korišćenje metode unutrašnje tačke koja koristi iteracije slične Njutnovoj metodi da bi se pronašlo rešenje Karuš–Kun–Takerovih uslova primarnog i dualnog problema. [38] Umesto rešavanja niza raščlanjenih problema, ovaj pristup direktno rešava problem u celini. Da bi se izbeglo rešavanje linearnog sistema koji uključuje veliku matricu jezgra, aproksimacija niskog ranga matrici se često koristi u triku jezgra.

Uobičajeni metod je i Platoov algoritam sekvencijalne minimalne optimizacije, koji razlaže problem na 2-dimenzionalne podprobleme koji se rešavaju analitički, eliminišući potrebu za numeričkim algoritmom optimizacije i skladištenjem matrice. Ovaj algoritam je konceptualno jednostavan, lak za implementaciju, generalno brži i ima bolja svojstva skaliranja za teške MPV probleme.

Poseban slučaj lineranih MPV može se efikasnije rešiti istom vrstom algoritama koji se koriste za optimizaciju njegovog bliskog rođaka, logističke regresije ; ova klasa algoritama uključuje sub-gradijenti spust (npr. PEGASOS) i koordinatni spust (npr. LIBLINEAR[39] ). LIBLINEAR ima impresivna vremena obuke. Svaka iteracija konvergencije traje linearno u vremenu potrebnom za čitanje trening podataka, a iteracije takođe imaju svojstvo Q-linearne konvergencije, što algoritam čini izuzetno brzim.

Opšta MPV jezgra se takođe mogu efikasnije rešiti korišćenjem sub-gradijentnog spusta (npr P-packSVM ), posebno kada je paralelizacija dozvoljena.

MPV jezgra su dostupna u mnogim kompletima alata za mašinsko učenje, uključujući <a href="https://en.wikipedia.org/wiki/LIBSVM" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="815">LIBSVM</a>, MATLAB, SAS, SVMlight, kernlab, <a href="https://en.wikipedia.org/wiki/Scikit-learn" rel="mw:ExtLink" title="Scikit-learn" class="cx-link" data-linkid="817">scikit-learn</a>-, <a href="https://en.wikipedia.org/wiki/Shogun_(toolbox)" rel="mw:ExtLink" title="Shogun (toolbox)" class="cx-link" data-linkid="818">Shogun</a>, <a href="https://en.wikipedia.org/wiki/Weka_(machine_learning)" rel="mw:ExtLink" title="Weka (machine learning)" class="cx-link" data-linkid="819">Weka</a>, Shark, JKernelMachines, OpenCV i druge.

Preporučuje se prethodna obrada podataka (standardizacija) da bi se poboljšala tačnost klasifikacije. [40] Postoji nekoliko metoda standardizacije, kao što su min-maks, normalizacija decimalnim skaliranjem, Z-score. [41] Oduzimanje srednje vrednosti i deljenje varijansom svake karakteristike se obično koristi za M. [42]

Reference

uredi
  1. ^ Ben-Hur, Asa; Horn, David; Siegelmann, Hava; Vapnik, Vladimir N. „"Support vector clustering" (2001);”. Journal of Machine Learning Research. 2: 125—137. 
  2. ^ „1.4. Support Vector Machines — scikit-learn 0.20.2 documentation”. Arhivirano iz originala 2017-11-08. g. Pristupljeno 2017-11-08. 
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (PDF) (Second izd.). New York: Springer. str. 134. 
  4. ^ a b v Boser, Bernhard E.; Guyon, Isabelle M.; Vapnik, Vladimir N. (1992). „A training algorithm for optimal margin classifiers”. Proceedings of the fifth annual workshop on Computational learning theory – COLT '92. str. 144. CiteSeerX 10.1.1.21.3818 . ISBN 978-0897914970. doi:10.1145/130385.130401. 
  5. ^ Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (2007). „Section 16.5. Support Vector Machines”. Numerical Recipes: The Art of Scientific Computing (3rd izd.). New York: Cambridge University Press. ISBN 978-0-521-88068-8. Arhivirano iz originala 2011-08-11. g. 
  6. ^ Joachims, Thorsten (1998). „Text categorization with Support Vector Machines: Learning with many relevant features”. Machine Learning: ECML-98. Lecture Notes in Computer Science (na jeziku: engleski). Springer. 1398: 137—142. ISBN 978-3-540-64417-0. doi:10.1007/BFb0026683 . 
  7. ^ Pradhan, Sameer S., et al. "Shallow semantic parsing using support vector machines." Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004. 2004.
  8. ^ Vapnik, Vladimir N.: Invited Speaker. IPMU Information Processing and Management 2014).
  9. ^ Barghout, Lauren. "Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation". Granular Computing and Decision-Making. Springer International Publishing, 2015. 285–318.
  10. ^ A. Maity (2016). „Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features”. arXiv:1608.00501  [cs.CV]. 
  11. ^ DeCoste, Dennis (2002). „Training Invariant Support Vector Machines” (PDF). Machine Learning. 46: 161—190. doi:10.1023/A:1012454411458 . 
  12. ^ Maitra, D. S.; Bhattacharya, U.; Parui, S. K. (avgust 2015). „CNN based common approach to handwritten character recognition of multiple scripts”. 2015 13th International Conference on Document Analysis and Recognition (ICDAR). str. 1021—1025. ISBN 978-1-4799-1805-8. S2CID 25739012. doi:10.1109/ICDAR.2015.7333916. 
  13. ^ Gaonkar, Bilwaj; Davatzikos, Christos; "Analytic estimation of statistical significance maps for support vector machine based multi-variate image analysis and classification".
  14. ^ Cuingnet, Rémi; Rosso, Charlotte; Chupin, Marie; Lehéricy, Stéphane; Dormont, Didier; Benali, Habib; Samson, Yves; and Colliot, Olivier; "Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome" Arhivirano na sajtu Wayback Machine (22. decembar 2018), Medical Image Analysis (PDF). 15 (5): 729—737. 2011 https://web.archive.org/web/20181222172844/http://www.aramislab.fr/perso/colliot/files/media2011_remi_published.pdf. Arhivirano iz originala (PDF) 22. 12. 2018. g. Pristupljeno 19. 11. 2021.  Nedostaje ili je prazan parametar |title= (pomoć).
  15. ^ Statnikov, Alexander; Hardin, Douglas; & Aliferis, Constantin; (2006); "Using SVM weight-based methods to identify causally relevant and non-causally relevant variables", Sign, 1, 4.
  16. ^ Cortes, Corinna; Vapnik, Vladimir N. (1995). „Support-vector networks” (PDF). Machine Learning. 20 (3): 273—297. CiteSeerX 10.1.1.15.9362 . doi:10.1007/BF00994018. 
  17. ^ „Why is the SVM margin equal to  . Mathematics Stack Exchange. 30. 5. 2015. 
  18. ^ Aizerman, Mark A.; Braverman, Emmanuel M.; Rozonoer, Lev I. (1964). „Theoretical foundations of the potential function method in pattern recognition learning”. Automation and Remote Control. 25: 821—837. 
  19. ^ Shalev-Shwartz, Shai; Singer, Yoram; Srebro, Nathan; Cotter, Andrew (2010-10-16). „Pegasos: primal estimated sub-gradient solver for SVM”. Mathematical Programming. 127 (1): 3—30. CiteSeerX 10.1.1.161.9629 . ISSN 0025-5610. doi:10.1007/s10107-010-0420-4. 
  20. ^ Hsieh, Cho-Jui; Chang, Kai-Wei; Lin, Chih-Jen; Keerthi, S. Sathiya; Sundararajan, S. (2008-01-01). A Dual Coordinate Descent Method for Large-scale Linear SVM. Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM. str. 408—415. CiteSeerX 10.1.1.149.5594 . ISBN 978-1-60558-205-4. doi:10.1145/1390156.1390208. 
  21. ^ Rosasco, Lorenzo; De Vito, Ernesto; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (2004-05-01). „Are Loss Functions All the Same?”. Neural Computation. 16 (5): 1063—1076. CiteSeerX 10.1.1.109.6786 . ISSN 0899-7667. PMID 15070510. doi:10.1162/089976604773135104. 
  22. ^ Meyer, David; Leisch, Friedrich; Hornik, Kurt (septembar 2003). „The support vector machine under test”. Neurocomputing. 55 (1–2): 169—186. doi:10.1016/S0925-2312(03)00431-4. 
  23. ^ a b Duan, Kai-Bo; Keerthi, S. Sathiya (2005). „Which Is the Best Multiclass SVM Method? An Empirical Study” (PDF). Multiple Classifier Systems. LNCS. 3541. str. 278—285. CiteSeerX 10.1.1.110.6789 . ISBN 978-3-540-26306-7. doi:10.1007/11494683_28. Arhivirano iz originala (PDF) 03. 05. 2013. g. Pristupljeno 19. 11. 2021. 
  24. ^ Hsu, Chih-Wei; Lin, Chih-Jen (2002). „A Comparison of Methods for Multiclass Support Vector Machines” (PDF). IEEE Transactions on Neural Networks. 13 (2): 415—25. PMID 18244442. doi:10.1109/72.991427. Arhivirano iz originala (PDF) 03. 05. 2013. g. Pristupljeno 19. 11. 2021. 
  25. ^ Platt, John; Cristianini, Nello; Shawe-Taylor, John (2000). „Large margin DAGs for multiclass classification” (PDF). Ur.: Solla, Sara A.; Leen, Todd K.; Müller, Klaus-Robert. Advances in Neural Information Processing Systems. MIT Press. str. 547—553. Arhivirano iz originala (PDF) 2012-06-16. g. 
  26. ^ Dietterich, Thomas G.; Bakiri, Ghulum (1995). „Solving Multiclass Learning Problems via Error-Correcting Output Codes” (PDF). Journal of Artificial Intelligence Research. 2: 263—286. Bibcode:1995cs........1101D. arXiv:cs/9501101 . doi:10.1613/jair.105. Arhivirano iz originala (PDF) 2013-05-09. g. 
  27. ^ Crammer, Koby; Singer, Yoram (2001). „On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines” (PDF). Journal of Machine Learning Research. 2: 265—292. Arhivirano iz originala (PDF) 2015-08-29. g. 
  28. ^ Lee, Yoonkyung; Lin, Yi; Wahba, Grace (2001). „Multicategory Support Vector Machines” (PDF). Computing Science and Statistics. 33. Arhivirano iz originala (PDF) 2013-06-17. g. 
  29. ^ Lee, Yoonkyung; Lin, Yi; Wahba, Grace (2004). „Multicategory Support Vector Machines”. Journal of the American Statistical Association. 99 (465): 67—81. CiteSeerX 10.1.1.22.1879 . doi:10.1198/016214504000000098. 
  30. ^ Van den Burg, Gerrit J. J.; Groenen, Patrick J. F. (2016). „GenSVM: A Generalized Multiclass Support Vector Machine” (PDF). Journal of Machine Learning Research. 17 (224): 1—42. 
  31. ^ Joachims, Thorsten; "Transductive Inference for Text Classification using Support Vector Machines", Proceedings of the 1999 International Conference on Machine Learning (ICML 1999), pp. 200–209.
  32. ^ Drucker, Harris; Burges, Christ. C.; Kaufman, Linda; Smola, Alexander J.; and Vapnik, Vladimir N. (1997); "Support Vector Regression Machines", in Advances in Neural Information Processing Systems 9, NIPS 1996, 155–161, MIT Press.
  33. ^ Suykens, Johan A. K.; Vandewalle, Joos P. L.; "Least squares support vector machine classifiers", Neural Processing Letters, vol. 9, no. 3, Jun. 1999, pp. 293–300.
  34. ^ Smola, Alex J.; Schölkopf, Bernhard (2004). „A tutorial on support vector regression” (PDF). Statistics and Computing. 14 (3): 199—222. CiteSeerX 10.1.1.41.1452 . doi:10.1023/B:STCO.0000035301.49549.88. Arhivirano iz originala (PDF) 2012-01-31. g. 
  35. ^ Polson, Nicholas G.; Scott, Steven L. (2011). „Data Augmentation for Support Vector Machines”. Bayesian Analysis. 6 (1): 1—23. doi:10.1214/11-BA601 . 
  36. ^ Wenzel, Florian; Galy-Fajou, Theo; Deutsch, Matthäus; Kloft, Marius (2017). „Bayesian Nonlinear Support Vector Machines for Big Data”. Machine Learning and Knowledge Discovery in Databases (ECML PKDD). Lecture Notes in Computer Science. 10534: 307—322. Bibcode:2017arXiv170705532W. ISBN 978-3-319-71248-2. arXiv:1707.05532 . doi:10.1007/978-3-319-71249-9_19. 
  37. ^ Florian Wenzel; Matthäus Deutsch; Théo Galy-Fajou; Marius Kloft; ”Scalable Approximate Inference for the Bayesian Nonlinear Support Vector Machine”
  38. ^ Ferris, Michael C.; Munson, Todd S. (2002). „Interior-Point Methods for Massive Support Vector Machines” (PDF). SIAM Journal on Optimization. 13 (3): 783—804. CiteSeerX 10.1.1.216.6893 . doi:10.1137/S1052623400374379. Arhivirano iz originala (PDF) 2008-12-04. g. 
  39. ^ Fan, Rong-En; Chang, Kai-Wei; Hsieh, Cho-Jui; Wang, Xiang-Rui; Lin, Chih-Jen (2008). „LIBLINEAR: A library for large linear classification” (PDF). Journal of Machine Learning Research. 9: 1871—1874. 
  40. ^ Fan, Rong-En; Chang, Kai-Wei; Hsieh, Cho-Jui; Wang, Xiang-Rui; Lin, Chih-Jen (2008). „LIBLINEAR: A library for large linear classification”. Journal of Machine Learning Research. 9 (Aug): 1871—1874. 
  41. ^ Mohamad, Ismail; Usman, Dauda (2013-09-01). „Standardization and Its Effects on K-Means Clustering Algorithm”. Research Journal of Applied Sciences, Engineering and Technology. 6 (17): 3299—3303. doi:10.19026/rjaset.6.3638 . 
  42. ^ Fennell, Peter; Zuo, Zhiya; Lerman, Kristina (2019-12-01). „Predicting and explaining behavioral data with structured feature space decomposition”. EPJ Data Science. 8. doi:10.1140/epjds/s13688-019-0201-0 . 

 

Dodatna literatura

uredi

Spoljašnje veze

uredi