Кластерска анализа

Кластерска анализа или кластеровање је задатак груписања скупа објеката на начин да су објекти у истој групи (који се називају кластер) сличнији (у неком специфичном смислу дефинисаном од стране аналитичара) једни другима него онима у другим групама (кластерима). То је главни задатак експлораторне анализе података и уобичајена техника за статистичку анализу података, која се користи у многим областима, укључујући препознавање образаца, анализу слика, проналажење информација, биоинформатику, компресију података, компјутерску графику и машинско учење.

Резултат кластерске анализе приказан је бојама квадрата у три кластера

Кластер анализа се односи на породицу алгоритама и задатака, а не на један специфичан алгоритам. То се може постићи различитим алгоритмима који се значајно разликују у њиховом разумевању тога што чини кластер и како да их ефикасно пронађу. Популарни појмови кластера укључују групе са малим растојањима између чланова кластера, густе области простора података, интервале или одређене статистичке расподеле. Груписање се стога може формулисати као проблем вишекритеријумске оптимизације. Одговарајући алгоритам за груписање и подешавања параметара (укључујући параметре као што су функција удаљености коју треба користити, праг густине или број очекиваних кластера) зависе од појединачног скупа података и намераване употребе резултата. Кластерска анализа као таква није аутоматски задатак, већ итеративни процес откривања знања или интерактивне вишециљне оптимизације која укључује покушаје и неуспехе. Често је потребно модификовати предобраду података и параметре модела све док резултат не постигне жељена својства.

Поред термина кластеровање, постоји низ појмова са сличним значењима, укључујући аутоматску класификацију, нумеричку таксономију, ботриологију (од грч. βότρυς гризд), типолошку анализу и детекцију заједнице. Суптилне разлике често постоје у коришћењу резултата: док су у рударењу података резултујуће групе предмет интересовања, у аутоматској класификацији је резултујућа дискриминаторна моћ од интереса.

Кластерска анализа је потекла из антропологије доприносима Драјвера и Кроебера 1932. године,[1] а у психологију су га увели Џозеф Зубин 1938.[2] и Роберт Трион 1939.[3] и чувена је њена Кателова примена почев од 1943.[4] за теорију класификације особина у психологији личности.

Референце

уреди
  1. ^ Дривер анд Кроебер (1932). „Qуантитативе Еxпрессион оф Цултурал Релатионсхипс”. Университy оф Цалифорниа Публицатионс ин Америцан Арцхаеологy анд Етхнологy. Беркелеy, ЦА: Университy оф Цалифорниа Пресс. Qуантитативе Еxпрессион оф Цултурал Релатионсхипс: 211—256. Архивирано из оригинала 2020-12-06. г. Приступљено 2019-02-18. 
  2. ^ Зубин, Јосепх (1938). „А тецхниqуе фор меасуринг лике-миндеднесс.”. Тхе Јоурнал оф Абнормал анд Социал Псyцхологy (на језику: енглески). 33 (4): 508—516. ИССН 0096-851X. дои:10.1037/х0055441. 
  3. ^ Трyон, Роберт C. (1939). Цлустер Аналyсис: Цоррелатион Профиле анд Ортхометриц (фацтор) Аналyсис фор тхе Исолатион оф Унитиес ин Минд анд Персоналитy. Едwардс Бротхерс. 
  4. ^ Цаттелл, Р. Б. (1943). „Тхе десцриптион оф персоналитy: Басиц траитс ресолвед инто цлустерс”. Јоурнал оф Абнормал анд Социал Псyцхологy. 38 (4): 476—506. дои:10.1037/х0054116.