Бинарна класификација

Бинарна класификација је задатак класификације елемената скупа у две групе на основу правила класификације. Типични бинарни проблеми класификације укључују:

Медицинско тестирање како би се утврдило да ли пацијент има одређену болест или не;
Контрола квалитета у индустрији, одлучивање да ли је испуњена нека спецификација;
У претраживању информација, одлучивању да ли ће страница бити у низу резултата претраге или не.

Бинарна класификација је задатак чији обучавајући скуп садржи тачно две могуће класе у које се може сврстати улазни податак. Ове класе су обично у облику истинитосних вредности (јесте/није заражен, јесте/није крив итд.).

Коју год стратегију одаберемо, свака користи одређени алгоритам за учење, како би се нашла најбоља веза (или модел) која се може користити за описивање улазних података за учење, а и за одређивање класификације нових улазних података. Кључна карактеристика алгоритма за учење јесте генерализација података.

Зависно од броја класа, се разликује:

бинарна класификација - постоје две класе
вишекласна класификација - постоји више класа у које податке треба разврстати

Принцип рада алгоритма у оба случаја је готово исти. У случају постојања више класа, алгоритам итеративно учи, тако да у свакој итерацији “научи” да једну од класа разграничи од свих осталих.^[1]

Статистичка бинарна класификација уреди

Статистичка класификација је проблем који се проучава у машинском учењу. То је врста надгледаног учења, метода машинског учења где су категорије унапред дефинисане и користи се за категоризацију нових вероватноћа запажања у поменуте категорије. Када постоје само две категорије реч је о статистичко бинарној класификацији.

Неке од метода које се обично користе за бинарну класификацију су:

Стабла одлуке
Шуме одлуке
Бајесов класификатор
Машина са векторима подршке
Вештачке неуронске мреже
Логистичка регресија
Пробит модел

Сваки класификатор је најбољи само у одабраном домену на основу броја посматрања, димензионалности вектора обележја, и многих других фактора.^[2]^[3]

Процена бинарних класификатора уреди

Структура конфузионе матрице 2x2. Позитивно (P): Посматрање је позитивно. Негативно (N): Посматрање није позитивни. Истински позитивно (ТP): Исход где модел тачно предвиђа позитивну класу. Истински негативно (TN): Исход где модел тачно предвиђа негативну класу. Лажно позитивни (FP): Такође се назива грешка типа 1, исход када модел погрешно предвиђа позитивну класу када је она заправо негативна. Лажно негативно (FN): Назива се и грешком типа 2, исход када модел погрешно предвиђа негси класификационог модела. Број тачних и нетачних предвиђања сумиран је са вредностима бројања и подељен по свакој класи.ативну класу када је у ствари позитивна.

Алгоритми који користе тренинг скуп ради изградње модела те помоћу њега могу одредити класу непознатог објекта се називају класификатори.

Постоји много показатеља који се могу користити за мерење перформанси класификатора. У медицини се често користе сензитивност и специфичност, док се у проналажењу информација даје предност прецизности. Важна разлика је између показатеља који су независни од тога колико се често свака категорија појављује у популацији (преваленца) и показатеља који зависе од преваленције-обе врсте су корисне, али имају врло различита својства.

С обзиром на класификацију одређеног скупа података, постоје четири основне комбинације стварне категорије података и додељене категорије: истински позитивни, истински негативни, лажно позитивни и лажно негативни (нетачни негативни задаци).

Матрица забуне, позната и као матрица грешака, сажета је табела која се користи за процену перформанси.

На слици је структура матрице 2x2. Као пример, рецимо да је било десет случајева када је модел класификације предвиђао „Да“ у којој је стварна вредност била „Да“. Тада би број десет ишао у горњи леви угао у квадранту истински позитивно. ^[4]

Претварање континуираних вредности у бинарне уреди

Тестови чији су резултати континуиранe вредности, као што је већина вредности крви, могу се вештачки учинити бинарним, дефинисањем граничне вредности , при чему се резултати тестова означавају као позитивни или негативни у зависности од тога да ли је резултујућа вредност већа или нижа од граничне вредности.

Међутим, таква конверзија узрокује губитак података, јер резултујућа бинарна класификација не говори колико је вредност изнад или испод граничне вредности. Као резултат, при претварању континуиране вредности која је близу граничне вредности у бинарну, резултујућа позитивна или негативна предиктивна вредност је углавном већа од предиктивне вредности дате директно из непрекидне вредности. У таквим случајевима, ознака теста да је позитивна или негативна даје привид непримерено велике сигурности, док је вредност у ствари у интервалу несигурности. На пример, са концентрацијом хуманог хoрионског гoнoдотропина у урину као континуираном вредношћу, тест трудноће у урину којI је измерен на 52 mIU/ml hCG, може се показати као „позитиван“ са 50 mIU/ml као гранична вредност, али је заправо у интервалу несигурности, што може бити очигледно само познавањем оригиналне континуиране вредности. С друге стране, резултат теста врло далеко од граничне вредности углавном има резултантну позитивну или негативну предиктивну вредност која је нижа од предиктивне вредности дате из континуиране вредности. На пример, вредност hCG у урину од 200 000 mIU/ml даје врло велику вероватноћу трудноће, али претварање у бинарне вредности резултира тиме да показује једнако „позитивно“ као и оно од 52 mIU/ml.

Види још уреди

Референце уреди

^ Jovanocić, Jelena. „Klasifikacija” (PDF). FON BG. Приступљено 13. 01. 2021.
^ Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications.
^ Y. Lu and C., Rasmussen (2012). „Simplified Markov Random Fields for Efficient Semantic Labeling of 3D Point Clouds” (PDF). Приступљено 14. 01. 2021.
^ Shin, Terence (01. 05. 2020). „Understanding the Confusion Matrix and How to Implement it in Python”. Приступљено 14. 01. 2021.

Литература уреди

Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Website for the book)
Bernhard Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, Cambridge, Massachusetts, 2002. ISBN 0-262-19475-9

[1] Jovanocić, Jelena. „Klasifikacija” (PDF). FON BG. Приступљено 13. 01. 2021.

[2] Zhang & Zakhor, Richard & Avideh (2014). "Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras". VIP Lab Publications.

[3] Y. Lu and C., Rasmussen (2012). „Simplified Markov Random Fields for Efficient Semantic Labeling of 3D Point Clouds” (PDF). Приступљено 14. 01. 2021.

[4] Shin, Terence (01. 05. 2020). „Understanding the Confusion Matrix and How to Implement it in Python”. Приступљено 14. 01. 2021.

[1]

[2]

[3]

[4]