Binarna klasifikacija

Binarna klasifikacija je zadatak klasifikacije elemenata skupa u dve grupe na osnovu pravila klasifikacije. Tipični binarni problemi klasifikacije uključuju:

Medicinsko testiranje kako bi se utvrdilo da li pacijent ima određenu bolest ili ne;
Kontrola kvaliteta u industriji, odlučivanje da li je ispunjena neka specifikacija;
U pretraživanju informacija, odlučivanju da li će stranica biti u nizu rezultata pretrage ili ne.

Binarna klasifikacija je zadatak čiji obučavajući skup sadrži tačno dve moguće klase u koje se može svrstati ulazni podatak. Ove klase su obično u obliku istinitosnih vrednosti (jeste/nije zaražen, jeste/nije kriv itd.).

Koju god strategiju odaberemo, svaka koristi određeni algoritam za učenje, kako bi se našla najbolja veza (ili model) koja se može koristiti za opisivanje ulaznih podataka za učenje, a i za određivanje klasifikacije novih ulaznih podataka. Ključna karakteristika algoritma za učenje jeste generalizacija podataka.

Zavisno od broja klasa, se razlikuje:

binarna klasifikacija - postoje dve klase
višeklasna klasifikacija - postoji više klasa u koje podatke treba razvrstati

Princip rada algoritma u oba slučaja je gotovo isti. U slučaju postojanja više klasa, algoritam iterativno uči, tako da u svakoj iteraciji “nauči” da jednu od klasa razgraniči od svih ostalih.^[1]

Statistička binarna klasifikacija uredi

Statistička klasifikacija je problem koji se proučava u mašinskom učenju. To je vrsta nadgledanog učenja, metoda mašinskog učenja gde su kategorije unapred definisane i koristi se za kategorizaciju novih verovatnoća zapažanja u pomenute kategorije. Kada postoje samo dve kategorije reč je o statističko binarnoj klasifikaciji.

Neke od metoda koje se obično koriste za binarnu klasifikaciju su:

Stabla odluke
Šume odluke
Bajesov klasifikator
Mašina sa vektorima podrške
Veštačke neuronske mreže
Logistička regresija
Probit model

Svaki klasifikator je najbolji samo u odabranom domenu na osnovu broja posmatranja, dimenzionalnosti vektora obeležja, i mnogih drugih faktora.^[2]^[3]

Procena binarnih klasifikatora uredi

Struktura konfuzione matrice 2x2. Pozitivno (P): Posmatranje je pozitivno. Negativno (N): Posmatranje nije pozitivni. Istinski pozitivno (ТP): Ishod gde model tačno predviđa pozitivnu klasu. Istinski negativno (TN): Ishod gde model tačno predviđa negativnu klasu. Lažno pozitivni (FP): Takođe se naziva greška tipa 1, ishod kada model pogrešno predviđa pozitivnu klasu kada je ona zapravo negativna. Lažno negativno (FN): Naziva se i greškom tipa 2, ishod kada model pogrešno predviđa negsi klasifikacionog modela. Broj tačnih i netačnih predviđanja sumiran je sa vrednostima brojanja i podeljen po svakoj klasi.ativnu klasu kada je u stvari pozitivna.

Algoritmi koji koriste trening skup radi izgradnje modela te pomoću njega mogu odrediti klasu nepoznatog objekta se nazivaju klasifikatori.

Postoji mnogo pokazatelja koji se mogu koristiti za merenje performansi klasifikatora. U medicini se često koriste senzitivnost i specifičnost, dok se u pronalaženju informacija daje prednost preciznosti. Važna razlika je između pokazatelja koji su nezavisni od toga koliko se često svaka kategorija pojavljuje u populaciji (prevalenca) i pokazatelja koji zavise od prevalencije-obe vrste su korisne, ali imaju vrlo različita svojstva.

S obzirom na klasifikaciju određenog skupa podataka, postoje četiri osnovne kombinacije stvarne kategorije podataka i dodeljene kategorije: istinski pozitivni, istinski negativni, lažno pozitivni i lažno negativni (netačni negativni zadaci).

Matrica zabune, poznata i kao matrica grešaka, sažeta je tabela koja se koristi za procenu performansi.

Na slici je struktura matrice 2x2. Kao primer, recimo da je bilo deset slučajeva kada je model klasifikacije predviđao „Da“ u kojoj je stvarna vrednost bila „Da“. Tada bi broj deset išao u gornji levi ugao u kvadrantu istinski pozitivno. ^[4]

Pretvaranje kontinuiranih vrednosti u binarne uredi

Testovi čiji su rezultati kontinuirane vrednosti, kao što je većina vrednosti krvi, mogu se veštački učiniti binarnim, definisanjem granične vrednosti , pri čemu se rezultati testova označavaju kao pozitivni ili negativni u zavisnosti od toga da li je rezultujuća vrednost veća ili niža od granične vrednosti.

Međutim, takva konverzija uzrokuje gubitak podataka, jer rezultujuća binarna klasifikacija ne govori koliko je vrednost iznad ili ispod granične vrednosti. Kao rezultat, pri pretvaranju kontinuirane vrednosti koja je blizu granične vrednosti u binarnu, rezultujuća pozitivna ili negativna prediktivna vrednost je uglavnom veća od prediktivne vrednosti date direktno iz neprekidne vrednosti. U takvim slučajevima, oznaka testa da je pozitivna ili negativna daje privid neprimereno velike sigurnosti, dok je vrednost u stvari u intervalu nesigurnosti. Na primer, sa koncentracijom humanog horionskog gonodotropina u urinu kao kontinuiranom vrednošću, test trudnoće u urinu kojI je izmeren na 52 mIU/ml hCG, može se pokazati kao „pozitivan“ sa 50 mIU/ml kao granična vrednost, ali je zapravo u intervalu nesigurnosti, što može biti očigledno samo poznavanjem originalne kontinuirane vrednosti. S druge strane, rezultat testa vrlo daleko od granične vrednosti uglavnom ima rezultantnu pozitivnu ili negativnu prediktivnu vrednost koja je niža od prediktivne vrednosti date iz kontinuirane vrednosti. Na primer, vrednost hCG u urinu od 200 000 mIU/ml daje vrlo veliku verovatnoću trudnoće, ali pretvaranje u binarne vrednosti rezultira time da pokazuje jednako „pozitivno“ kao i ono od 52 mIU/ml.

Vidi još uredi

Reference uredi

^ Jovanocić, Jelena. „Klasifikacija” (PDF). FON BG. Pristupljeno 13. 01. 2021. CS1 održavanje: Format datuma (veza)
^ Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications.
^ Y. Lu and C., Rasmussen (2012). „Simplified Markov Random Fields for Efficient Semantic Labeling of 3D Point Clouds” (PDF). Pristupljeno 14. 01. 2021. CS1 održavanje: Format datuma (veza)
^ Shin, Terence (01. 05. 2020). „Understanding the Confusion Matrix and How to Implement it in Python”. Pristupljeno 14. 01. 2021. CS1 održavanje: Format datuma (veza)

Literatura uredi

Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9

[1] Jovanocić, Jelena. „Klasifikacija” (PDF). FON BG. Pristupljeno 13. 01. 2021. CS1 održavanje: Format datuma (veza)

[2] Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications.

[3] Y. Lu and C., Rasmussen (2012). „Simplified Markov Random Fields for Efficient Semantic Labeling of 3D Point Clouds” (PDF). Pristupljeno 14. 01. 2021. CS1 održavanje: Format datuma (veza)

[4] Shin, Terence (01. 05. 2020). „Understanding the Confusion Matrix and How to Implement it in Python”. Pristupljeno 14. 01. 2021. CS1 održavanje: Format datuma (veza)

[1]

[2]

[3]

[4]