Истраживање података

Истраживање података (енгл. Дата Мининг, користе се и термини тражење података, прекопавање података, рударење података, дејта мајнинг) је процес откривања шаблона у великим скуповима података, коришћењем метода машинског учења, статистике и система база података.[1] Истраживање података представља интердисциплинарну подобласт информатике и статистике, чији је општи циљ извлачење информација (коришћењем интелигентних метода) из скупова података и трансформација тих информација у разумљиву структуру ради даље употребе.[1][2][3][4] Представља корак анализе у процесу "откривања знања у базама података" (енгл. кноwледге дисцоверy ин датабасес, КДД).[5] Поред самог корака анализе, такође укључује и аспекте управљања подацима и базама података, претпроцесирања података, разматрања статистичких модела и закључака, метрика занимљивости, разматрања сложености, постпроцесирања откривених структура, визуелизације и онлајн ажурирања.[1] Разлика између анализе и истраживања података лежи у томе што се анализа података користи да би се статистички модели и хипотезе тестирали на скупу података, нпр. приликом анализе ефикасности маркетиншке кампање, невезано од количине података. За разлику од тога, истраживање података користи машинско учење и статистичке моделе да открије тајне или скривене шаблоне у великим количинама података.[6]

Термин "истраживање података" је заправо погрешан, јер је циљ истраживања извлачење шаблона и знања из великих количина података, а не извлачење (рударење) самих података.[7] Такође представља жаргонску фразу[8] која се често приписује било ком виду обимне обраде података или информација (прикупљању, извлачењу, складиштењу, анализи и статистици) као и било којој примени рачунарских система за подршку одлучивању, укључујући и вештачку интелигенцију (нпр. машинско учење) и пословну интелигенцију. Књига Дата мининг: Працтицал мацхине леарнинг тоолс анд тецхниqуес wитх Јава[9] (која већински покрива теме машинског учења) је првенствено требало да буде названа Працтицал мацхине леарнинг, док је термин истраживање података (енгл. дата мининг) додат искључиво из маркетиншких разлога.[10] Често су прикладнији општији термини (великих размера) као што су анализа података и аналитика или, уколико се прича о стварним методама, вештачка интелигенција и машинско учење.

Стваран задатак истраживања података јесте полуаутоматска или аутоматска анализа велике количине података како би се извукли претходно непознати, занимљиви шаблони као што су групе записа података (анализа кластера), необични записи (откривање неправилности) и зависности (истраживање правилом асоцијације, истраживање секвенцијалних шаблона). То обично укључује коришћење техника база података као што су просторни индекси. Ови шаблони се онда могу посматрати као врста кратког прегледа улазних података и могу се користити за даљу анализу или, на пример, за машинско учење и предиктивну аналитику. Корак истраживања података може, на пример, открити више група међу подацима, које се онда могу користити како би се добиле прецизније прогнозе резултата коришћењем система за подршку одлучивању. Прикупљање и припрема података, као и тумачење резултата и извештавање, нису део корака истраживања података, али као додатни кораци припадају КДД процесу.

Повезани појмови копање података, пецање за подацима и њушкање за подацима односе се на примену метода истраживања података да би се узорковали делови веће популације скупова података који су (или би могли бити) премали да се на основу њих дође до поузданих статистичких закључака о оправданости откривених шаблона. Ове методе се, ипак, могу користити приликом стварања нових хипотеза које би се користиле за тестирање на већим популацијама података.

Етимологија уреди

Током 1960-их, статистичари и економисти су користили изразе попут пецање података или копање података који су се односили на оно што су они сматрали лошом праксом анализирања података без априори хипотезе. Економиста Мајкл Ловл (енгл. Мицхаел Ловелл) израз "истраживање података" користи на слично кључан начин у чланку објављеном у Прегледу економских наука (енгл. Ревиеw оф Ецономиц Студиес) 1983. Ловл указује да се истраживање података "скрива под више различитих алијаса од "експериментисање" (позитивно) до "пецање" или пак "њушкање"(негативно)."[11]

Израз истраживање података се појавио око 1990. у заједници која се бавила базама података које раде са базама података, углавном са позитивном конотацијом. Краткорочно током 1980-их се користио израз "истраживање база података"™, али након што га је ХНЦ, компанија из Сан Дијега, заштитила како би представила Датабасе Мининг Wоркстатион;[12] истраживачи су се стога окренули изразу истраживање података. Други коришћени изрази укључују археологија података, скупљање информација, откривање информација, извлачење знања, итд. Грегори Пјатецки Шапиро (енгл. Грегорy Пиатетскy-Схапиро) је осмислио израз "откривање знања у базама података" за прву радионицу (КДД-1989) на исту тему и овај израз је постао популарнији у заједници вештачке интелигенције и машинског учења. Међутим, израз истраживање података је постао популарнији у новинарским и пословним заједницама.[13] Тренутно, изрази истраживање података и откривање знања могу да се користе разменљиво.

У академској заједници, главни форуми за истраживање су започети 1995. када је Прва интернационална конференција о истраживању података и откривању знања (КДД-95) основана у Монтреалу под покрићем АААИ. Коорганизатори су били Усама Фајад и Рамсами Утурусами. Годину дана касније, 1996. Усама Фајад је основао Клуверов часопис који се звао Истраживање Података и Откривање Знања (енгл. Дата Мининг анд Кноwледге Дисцоверy) као главни уредник. Касније је покренуо СИГКДД претплату на часопис СИГКДД истраживања (енгл. СИГКДД Еxплоратионс) .[14] КДД Интернационална конференција је постала примарно најквалитетнија конференција у области истраживања података са стопом прихватања предлога научних радова испод 18%. Часопис Истраживање података и откривање знања (енгл. Дата Мининг анд Кноwледге Дисцоверy) је примарни истраживачки часопис у овој области.

Историја уреди

Вековима су се шаблони ручно извлачили из података. Ране методе препознавања шаблона у подацима укључују Бајесову теорему (1700-те год.) и регресиону анализу (1800-те год.). Ширење, свеприсутност и растућа моћ компјутерске технологије је драматично повећала прикупљање података, складиштни простор и могућност манипулације њима. Пошто су скупови података постали већи и комплекснији, директни анализа података је побољшавана индиректном, аутоматском обрадом података, уз помоћ других открића у информатици попут неуронске мреже, анализе кластера, генетских алгоритама, (1950-те год.) стабла одлучивања и правила одлучивања (1960.) и методе потпорних вектора (1990-те год.). Истраживање података је процес примењивања ових метода са намером откривања скривених шаблона[15] у веилким скуповима података. Превазилази јаз између примењене статистике и вештачке интелигенције (која углавном пружа математичку потпору) у управљању базама података коришћењем начина на који се подаци складиште и индексирају у базама података како би се алгоритми за учење и откривање извели ефикасније, омогућавајући таквим методама да буду примењене на све већим скуповима података.

Процес уреди

Процес откривања знања у базама података је обично дефинисан следећим корацима:

  1. Селекција
  2. Претпроцесирање
  3. Трансформација
  4. Истраживање података
  5. Интерпретација/процена[5]

Међутим, постоји много варијација овог модела, као што је Међу-индустријски стандардни процес за истраживање података (енгл. ЦРИСП ДМ - Цросс-индустрy стандард процесс фор дата мининг), који дефинише шест фаза:

  1. Разумевање пословања
  2. Разумевање података
  3. Припрема података
  4. Моделовање
  5. Процена
  6. Развој

или поједностављен процес као што је (1) претпроцесирање, (2) истраживање података и (3) потврђивање резултата.

Анкете спроведене у 2002, 2004, 2007. I 2014. години, показују да је ЦРИСП-ДМ методологија најкоришћенија међу рударима података.[16] СЕММА је био једини други стандард истраживања података у овим анкетама. Међутим, 3 до 4 пута више људи је рекло да користи ЦРИСП-ДМ методологију. Неколико тимова истраживача је објавило прегледе модела процеса истраживање података,[17][18] а Азведо и Сантос су спровели поређење ЦРИСП-ДМ и СЕММА модела 2008. године.[19]

Претпроцесирање уреди

Пре коришћења алгоритама за истраживање података, мора се саставити циљани скуп података. Како истраживање података може да открије једино шаблоне који заправо постоје у подацима, циљани скуп података мора да буде довољно велики да садржи те шаблоне, али и да буде довољно мали да би могао да се истражује у прихватљивим временским границама. Чест извор података јесу тржиште података и складиште података. Претпроцесирање је неопходно за анализу мултиваријабилних скупова података пре истраживања података. Циљани скуп података се затим сређује. Сређивање података уклања сва посматрања која садрже шум или којима недостају вредности.

Истраживање података уреди

Истраживање података се састоји из шест честих типова задатака:[5]

  • Откривање неправилности(атипичних података/промена/одступања) - откривање необичних записа података који могу бити занимљиви или грешака у подацима које захтевају даље истраживање.
  • Учење правилом асоцијације(моделовање зависности) - трагање за везама између променљивих. На пример, супермаркет може да скупља податке о куповним навикама купаца. Коришћењем учења правилом асоцијације, супермаркет може да одреди који производи се често купују заједно, а затим да искористи ту информацију за потребе маркетинга. Ово се понекад назива анализа потрошачке корпе.
  • Кластеровање - задатак откривања група и структура у подацима који су на неки начин слични, без коришћења већ познатих структура у подацима.
  • Класификација - задатак генерализације познатих структура које је потребно применити над новим подацима. На пример, имејл програм може да класификује имејлове као „легитимни” или као „спем”.
  • Регресија - покушава да пронађе функцију која обликује податке са најмањом грешком, тј. За процену веза између података или скупова података.
  • Сажимање - пружа компактнији увид у скуп података, укључујући визуализације и генерисање извештаја.

Потврђивање резултата уреди

 
Пример података произведених копањем података преко бота којим је управљао статистичар Тајлер Виген, који показују уску везу између речи које су донеле победу на „спелинг” (енг. спеллинг бее) такмичењу и броја људи који су умрли од уједа отровних паука у Сједињеним Америчким Државама. Сличност у трендовима је очигледно случајност.

Истраживање података се може несвесно лоше искористити, што затим доводи до резултата који на први поглед делују битно; али заправо не предвиђају будуће понашање нити могу бити репродуковани на новим узорцима података, те немају никакве користи. Овакви резултати су чести након истраживања превише хипотеза и након лошег статистичког тестирања хипотеза. Једноставан облик овог проблема у машинском учењу се зове преприлагођавање модела. Како се тај проблем може појавити у различитим фазама процеса, то доводи до тога да раздвајање на тренинг и тест скупове - када је то уопште могуће - није довољно да спречи појаву овог проблема.[20]


Последњи корак у откривању знања из података је потврђивање да шаблони које су произвели алгоритми истраживања података, постоје у целом скупу података. Нису сви шаблони које су ти алгоритми пронашли нужно тачни. Често се дешава да алгоритми истраживања података пронађу шаблоне у тренинг скупу који не постоје у целокупном скупу података. Ово се зове претренирање модела. Како би се овај проблем превазишао, у процени се користи тест скуп података на којима алгоритми истраживања нису тренирани. Научени шаблони се примењују на том тест скупу, а крајњи резултат се пореди са траженим резултатом.

На пример, алгоритам истраживања података који покушава да раздвоји „спем” и „легитимне” имејлове, био би трениран на тренинг скупу имејл узорака. По завршетку тренирања, научени шаблони се примењују на тест скупу имејлова на ком алгоритам није био трениран. Прецизност шаблона се затим мери по томе колико имејлова је тачно класификовано. Постоји велики број статистичких метода за процену алгоритма, као што су на пример РОЦ криве(енгл. Рецеивер оператинг цхарацтеристиц) .

Или на примеру регресије, алгоритам истраживања би био такође трениран на тренинг скупу, али би предвиђао на пример температуру следећег дана. Затим би се тај научени шаблон применио на тест скупу. Пример статистичке методе за процену регресионих модела је корен средње квадратне грешке (енг. Роот Меан Сqуаред Еррор, РМСЕ).

Ако научени шаблони не достижу жељене стандарде, неопходно је да накнадно преиспитамо и изменимо кораке претпроцесирања и истраживања података. Ако научени шаблони достижу жељене стандарде, онда је последњи корак да се протумаче ти шаблони, а затим и претворе у знање.

Истраживање уреди

Главно тело у струци је Специјална Инетересна група (СИГ) Удружења за рачунарске машине (енгл. Ассоциатион фор Цомпутинг Мацхинерy, АЦМ) за откривање знања и рударење података (СИГКДД)”.[21] [22]Од 1989. године, АЦМ СИГ домаћин је годишње интернационалне конференције и објављује свој записник[23], а од 1999. године објављује свој двогодишњи академски журнал чије је име СИГКДД Еxплоратионс.[24]

Конференције за рударење података у информатици садрже:

Теме о истраживању података су такође присутне на многим конференцијама о управљању података/базама података као што су ИЦДЕ конференција, СИГМОД конференција и Интернационална конференција о веома великим базама података.

Стандарди уреди

Постојали су напори да се дефинишу стандарди за процес истраживања података, на пример европски међуиндустријски стандардни процес за истраживање података (ЦРИСП-ДМ 1.0) из 1999. године и стандард за истраживање података у Јави (ЈДМ 1.0) из 2004. године. Развој наследника овим процесима (ЦРИСП-ДМ 2.0 и ЈДМ 2.0) био је активан у 2006. али је од тада заустављен. ЈДМ 2.0 је повучен пре достизања крајње верзије.

За размену извучених модела - посебно за коришћење у предиктивној аналитици - кључни стандард је ПММЛ (енг. Предицтиве Модел Маркуп Лангуаге), који је језик базиран на XМЛ-у, развијан од стране Групе за истраживање података (енг. Дата Мининг Гроуп, ДМГ) и подржан као формат размене од многих апликација за истраживање података. Као што име каже, покрива само предиктивне моделе, посебан задатак велике важности за пословне апликације. Међутим, наставци за подржавање(на пример) кластеровања потпростора били су предложени независно од ДМГ.[25]

Значајне намене уреди

Истраживање података се користи кад год има доступних дигиталних података. Значајни примери истраживања података могу се наћи у пословању, медицини, науци и надзору.

Питање приватности и етике уреди

Док термин "истраживање података" нема етичких импликација, често се повезује са истраживањем информација повезаних са људским понашањем (етичким или не).[26]

Начин на који се истраживање података користи може у одређном контексту или случајевима довести у питање приватност, законитост и етику.[27] Нарочито, влада за истраживање података или комерцијални скупови података за потребе националне безбедности или спровођења закона, као што је у Програму свесне информисаности (енгл. Тотал Информатион Аwаренесс Програм) или у АДВИСЕ-у, покренули су питање о приватности.[28][29]

Истраживање података захтева њихово припремање које може открити информације или шаблоне који могу угрозити обавезе поверљивости и приватности. Уобичајен начин да се то догоди је агрегација података. Она обухвата комбиновање података (евентуално са различитих извора) на начин који олакшава анализу (али то такође може учинити идентификацију приватних или података на индивидуалном нивоу дедуктивним или на други начин видљивим).[30]Ово није истраживање података пер се, већ резултат претхогног припремања података - за потребе - анализе. Претња приватности појединца ступа на снагу када подаци, када се једном компајлирају, узрокују да рудар података, или било ко ко има приступ новосастављеном скупу података, буде у могућности да идентификује одређене појединце, посебно када су подаци били изворно анонимни.[31][32][33]

Препоручује се да се појединац упозна са следећим пре прикупљања података:[30]

  •  сврха прикупљања података и свих (познатих) пројеката истраживања података;
  • како ће подаци бити искоришћени;
  •  ко ће моћи да рудари податке и користи њих и њихове деривате;
  •  стање безбедности које обухвата приступ подацима;
  •  како се прикупљени подаци могу ажурирати.

Подаци се такође могу модификовати тако да постану анонимни, тако да се појединци не могу лако идентификовати.[30] Међутим, чак и "деидентификовани"/"анонимизовани" скупови података могу потенцијално да садрже довољно информација које омогућују идентификацију појединаца, као што се догодило када су новинари успели да пронађу неколико особа на основу скупа историје претраживања које је нехотице објавио АОЛ.[34]

Нехотично откривање личних информација, које воде до провајдера, крши Праксу поштене информације. Ова несмотреност може проузроковати финансијске, емоционалне или телесне повреде појединцима. У једном случају кршења приватности, покровитељи Валгринса поднели су тужбу против компаније 2011. године због продаје информација о рецепту компанијама за истраживање података, које су затим достављале те податке фармацеутским компанијама.[35]

Ситуација у Европи уреди

Европа има прилично јаке законе о приватности и у току су напори за даље јачање права потрошача. Међутим, Америчко-Европски "Принципи сигурне луке" (енгл. У.С.-Е.У. Сафе Харбор Принциплес) тренутно ефективно дозвољавају америчким компанијама искоришћавање приватности европских корисника. Као последица Разоткривања глобалног надзора (енгл. глобал сурвеилланце дисцлосурес) Едварда Снуодена, дошло је до појачане расправе о опозиву овог споразума, нарочито због потпуне изложености података Националној сигурносној агенцији, а покушаји да се постигне споразум су пропали.[тражи се извор]

Ситуација у Сједињеним Државама уреди

У Сједињеним Америчким Државама, Конгрес САД се бавио питањима приватности усвајањем регулаторних контрола као што је Закон о преносивости и одговорности за здравствено осигурање (енгл. Хеалтх Инсуранце Портабилитy анд Аццоунтабилитy Ацт, ХИПАА). ХИПАА захтева од појединаца да дају свој "информисани пристанак" у вези информација које пружају и намераваним садашњим и будућим употребама. Према чланку објављеном у Биотецх Бусинесс Wеек-у, " У пракси, ХИПАА можда неће понудити већу заштиту од дугогодишњих прописа у области истраживања, " каже ААХЦ. "Важније, циљ правила заштите путем информисаног пристанка приближава се нивоу неразумљивости за просечне појединце.” [36] Ово наглашава потребу за анонимношћу података у агрегацији података и рударским праксама.

Законодавство САД-а о приватности информација као што је ХИПАА и Закон о породичним образовним правима и приватности (енгл. Фамилy Едуцатионал Ригхтс анд Привацy Ацт, ФЕРПА), односи се само на специфичне области на које се односи сваки такав закон. Коришћење истраживања података од стране већине предузећа у САД не контролише ниједно законодавство.

Закон о ауторским правима уреди

Ситуација у Европи уреди

Због недостатка флексибилности у европском закону о ауторским правима и базама података, истраживање радова са ауторским правима као што је истраживање интернет садржаја без дозволе власника ауторских права није легално. Док је у Европи база података која је скуп чистих података вероватно без ауторских права, али права базе податка можда постоје, што значи да истраживање податка постаје предмет прописа Директиве база података. На предлог Харгривсовог прегледа (енгл. енг. Харгреавес ревиеw), ово је узроковало да влада Уједињеног краљевства измени свој закон о ауторским правима 2014. године[37] да би дозволила истраживање садржаја као ограничење и изузетак. Тек следећа земља на свету после Јапана, која је увела изузетак 2009. године за истраживање података. Међутим, због рестрикција Директиве ауторских права, изузетак Уједињеног краљевства дозвољава само истраживање за некомерцијалне сврхе. Закон ауторских права Уједињеног краљевства такође не дозвољава промену ове мере уговорним условима. Европска комисија олакшала је дискусију заинтересованим странама о истраживању текста и података 2013. године под називом “Лиценце за Европу” (енг. Лиценцес фор Еуропе).[38] Фокус на решење овог правног питања које су лиценце, а не ограничења и изузеци довело је представнике универзитета, истраживача, библиотека, група цивилног друштва и издаваче отвореног приступа да напусте дијалог заинтересованих страна у мају 2013. године.[39]

Ситуација у Сједињеним државама уреди

У контраст Европи, флексибилна природа америчког закона о ауторским правима, а посебно поштене употребе значи да истраживање садржаја у Америци, као и осталим државама са сличним законом као што су Израел, Тајван, Јужна Кореја сматра се легалним. Пошто је истраживање садржаја трансформативно, што значи да не замењује оригинално дело, сматра се да је законито под поштеном употребом. На пример, као део у нагодби Гугл књига, преседавајући судија на случају пресудио је да је Гуглов пројекат дигитализације књига са ауторским правима законит, делом због трансформативног коришћења који је пројекат приказивао - један од којих је истраживање текста и податка.[40]

Софтвер уреди

Бесплатни софтвер отвореног кода и апликације за истраживање података уреди

Следеће апликације су доступне уз бесплатне или лиценце отвореног кода. Такође је дозвољен јавни приступ извршном коду апликација.

  • Царрот2 : оквир за кластеровање текста и резултата претраге.
  • Цхемицализе.орг: "рудар" хемијских структура и веб претраживач
  • ЕЛКИ: Универзитетски истраживачки пројекат за напредну анализу кластера и са методама откривања аутлајера, написан у Јава програмском језику.
  • ГАТЕ: алат за обраду природних језика (енгл. Натурал лангуаге процессинг, НЛП) и инжењеринг језика.
  • КНИМЕ: рудар Констанц информација (енгл. “Тхе Констанз Информатион Минер”), лак за коришћење и разумљив оквир за детаљну анализу података.
  • Масивна онлајн анализа (енгл. Массиве Онлине Аналyсис, МОА): Процес истраживања великог скупа података у реалном времену са алатима за неочекиване промене, написан у Јава програмском језику.
  • МЕПX: вишеплатформни алат за проблеме регресије и класификације заснован на варијанти генетског програмирања.
  • ML-Флеx: софтверски пакет који омогућава корисницима да интегришу пакете машинског учења других корисника написаних у било ком језику, да изврше анализе класификације паралелно преко више чворова, и да направе ХТМЛ извештаје резултата класификације.
  • млпацк: колекција спремних алгоритама машинског учења, написана у C++ програмском језику.
  • НЛТК (енг. Натурал Лангуаге Тоолкит): пакет библиотека и програма за симболичну и статистичку обраду природних језика за Пyтхон програмски језик.
  • ОпенНН: отворена библиотека за неуронске мреже.
  • Оранге: софтверски пакет за истраживање података и машинско учење на основу компоненти, написан у Пyтхон програмском језику.
  • Р: програмски језик и софтверско окружење за статистичко рачунарство, истраживање података и графику. Он је део ГНУ пројекта.
  • сцикит-леарн: библиотека за машинско учење отвореног кода за Пyтхон програмски језик.
  • Торцх: библиотека за дубоко учење отвореног кода за Луа програмски језик и оквир за научно рачунарство са широким распоном подршке алгоритама машинског учења.
  • УИМА (енг. Унструцтуред Информатион Манагемент Арцхитецтуре): компонентни оквир за анализу неструктурираног садржаја као што су текст, аудио и видео садржај - развијен од стране ИБМ-а.
  • Века (енг. Wека): пакет софтверских апликација за машинско учење написан у Јава програмском језику.

Власнички софтвери и апликације за истраживање података уреди

Следеће апликације су доступне уз власничке лиценце:

Анкете тржишта уреди

Неколико истраживача и организација је спровело преглед алата за истраживање података и анкетирање рудара података. Они откривају неке предности и мане софтверских пакета. Такође обезбеђују преглед понашања, преференција и ставова рудара података. Неки од тих извештаја садрже:

  • Хурвицов индекс победе (енгл. Хурwитз Вицторy Индеx): Извештај за напредну аналитику као алат за процену истраживања тржишта, истиче и разнолику употребу технологије за напредну аналитику и продаваце који производе те апликације. Скорашње истраживање.
  • Рексерова аналитика анкета рудара података (2007—2015)[41]
  • 2011. Вајлијеви интердисциплинарни прегледи (енгл. Wилеy Интердисциплинарy Ревиеwс): истраживање података и откривање знања.[42]
  • Форестеров извештај (енгл. Форрестер Ресеарцх) истраживања решења предиктивне аналитике и истраживање података 2010. године.[43]
  • Гартнеров извештај „Магичног квадранта" 2008. године.[44]
  • Роберт А. Низбетова серија од три чланка „Алат за истраживање података: Који је најбољи за маркетинг оријентисан купцима?" 2006. године.[45]
  • Хогтон ет алов (енгл. Хаугхтон ет ал), преглед софтверских пакета за истраживање података у научном часопису „Тхе Америцан Статистициан” 2003. године.[46]
  • Гебелова и Груенвалдова „Анкета о софтверским алатима за истраживање података и откривање знања" у СИГКДД истраживањима 1999. године.[47]

Референце уреди

  1. ^ а б в „Дата Мининг Цуррицулум”. АЦМ СИГКДД. 30. 4. 2006. Приступљено 27. 1. 2014. 
  2. ^ Цлифтон, Цхристопхер (2010). „Енцyцлопæдиа Британница: Дефинитион оф Дата Мининг”. Приступљено 9. 12. 2010. 
  3. ^ Хастие, Тревор; Тибсхирани, Роберт; Фриедман, Јероме (2009). „Тхе Елементс оф Статистицал Леарнинг: Дата Мининг, Инференце, анд Предицтион”. Архивирано из оригинала 10. 11. 2009. г. Приступљено 7. 8. 2012. 
  4. ^ Хан, Камбер, Пеи, Јаиwеи, Мицхелине, Јиан (9. 6. 2011). Дата Мининг: Цонцептс анд Тецхниqуес (3рд изд.). Морган Кауфманн. ИСБН 978-0-12-381479-1. 
  5. ^ а б в Фаyyад, Усама; Пиатетскy-Схапиро, Грегорy; Смyтх, Падхраиц (1996). „Фром Дата Мининг то Кноwледге Дисцоверy ин Датабасес” (ПДФ). Приступљено 17. 12. 2008. 
  6. ^ Олсон, Давид L. (2007). „Дата мининг ин бусинесс сервицес”. Сервице Бусинесс. 1 (3): 181—193. С2ЦИД 154104540. дои:10.1007/с11628-006-0014-7. 
  7. ^ Хан, Јиаwеи; Камбер, Мицхелине (2001). Дата мининг: цонцептс анд тецхниqуес. Морган Кауфманн. стр. 5. ИСБН 978-1-55860-489-6. „Тхус, дата мининг схоулд хаве беен море аппроприателy намед "кноwледге мининг фром дата" wхицх ис унфортунателy сомеwхат лонг 
  8. ^ ОКАИРП 2005 Фалл Цонференце, Аризона Стате Университy Архивирано 2014-02-01 на сајту Wayback Machine
  9. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 изд.). Elsevier. ISBN 978-0-12-374856-0. 
  10. ^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research. 11: 2533—2541. „the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. 
  11. ^ Lovell, Michael C. (1983). „Data Mining”. The Review of Economics and Statistics. 65 (1): 1—12. JSTOR 1924403. doi:10.2307/1924403. 
  12. ^ Mena, Jesus. (2011). Machine learning forensics for law enforcement, security, and intelligence. Boca Raton, FL: CRC Press. ISBN 9781439860700. OCLC 753970361. 
  13. ^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). „"Lesson: Data Mining, and Knowledge Discovery: An Introduction". Приступљено 30. 8. 2012. . Introduction to Data Mining. KD Nuggets..
  14. ^ Piatetsky-Shapiro, Gregory; Fayyad, Usama (2012). „An introduction to SIGKDD and a reflection on the term 'data mining'. ACM Sigkdd Explorations Newsletter. 13 (1): 102—103. S2CID 13314420. doi:10.1145/2207243.2207269. 
  15. ^ Kantardzic, Mehmed. (2003). Data mining : concepts, models, methods, and algorithms. Hoboken, NJ: Wiley-Interscience. ISBN 978-0-471-22852-3. OCLC 51437378. 
  16. ^ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
  17. ^ Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca. ISBN 978-3-902613-53-0. стр. 438-453., February 2009, I-Tech, Vienna, Austria.
  18. ^ Kurgan, Lukasz A.; Musilek, Petr (2006). „A survey of Knowledge Discovery and Data Mining process models”. The Knowledge Engineering Review. 21: 1—24. S2CID 32286404. doi:10.1017/S0269888906000737. 
  19. ^ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Архивирано 2013-01-09 на сајту Wayback Machine. Ин Процеедингс оф тхе ИАДИС Еуропеан Цонференце он Дата Мининг 2008, пп. 182–185.
  20. ^ Хаwкинс, Доуглас M (2004). „Тхе проблем оф оверфиттинг”. Јоурнал оф Цхемицал Информатион анд Цомпутер Сциенцес. 44 (1): 1—12. ПМИД 14741005. С2ЦИД 12440383. дои:10.1021/ци0342472. 
  21. ^ „Мицрософт Ацадемиц Сеарцх: Топ цонференцес ин дата мининг”. Мицрософт Ацадемиц Сеарцх. Архивирано из оригинала 19. 11. 2014. г. 
  22. ^ „Гоогле Сцхолар: Топ публицатионс - Дата Мининг & Аналyсис”. 
  23. ^ „Интернатионал Цонференцес он Кноwледге Дисцоверy анд Дата Мининг, АЦМ, Неw Yорк.”. Архивирано из оригинала 30. 4. 2010. г. Приступљено 2. 5. 2019. 
  24. ^ СИГКДД Еxплоратионс, АЦМ, Њујорк
  25. ^ Гüннеманн, Степхан; Кремер, Хардy; Сеидл, Тхомас (2011). „Ан еxтенсион оф тхе ПММЛ стандард то субспаце цлустеринг моделс”. Процеедингс оф тхе 2011 wорксхоп он Предицтиве маркуп лангуаге моделинг - ПММЛ '11. стр. 48. ИСБН 978-1-4503-0837-3. С2ЦИД 14967969. дои:10.1145/2023598.2023605. 
  26. ^ Селтзер, Wиллиам (2005). „Тхе Промисе анд Питфаллс оф Дата Мининг: Етхицал Иссуес” (ПДФ). АСА Сецтион он Говернмент Статистицс. Америцан Статистицал Ассоциатион. 
  27. ^ Питтс, Цхип (15. 3. 2007). „Тхе Енд оф Иллегал Доместиц Спyинг? Дон'т Цоунт он Ит”. Wасхингтон Спецтатор. Архивирано из оригинала 29. 10. 2007. г. 
  28. ^ Таипале, Ким А. (15. 12. 2003). „Дата Мининг анд Доместиц Сецуритy: Цоннецтинг тхе Дотс то Маке Сенсе оф Дата”. Цолумбиа Сциенце анд Тецхнологy Лаw Ревиеw. 5 (2). ОЦЛЦ 45263753. ССРН 546782 . Архивирано из оригинала 05. 11. 2014. г. Приступљено 03. 05. 2019. 
  29. ^ Ресиг, Јохн. „А Фрамеwорк фор Мининг Инстант Мессагинг Сервицес” (ПДФ). Приступљено 16. 3. 2018. 
  30. ^ а б в Тхинк Бефоре Yоу Диг: Привацy Имплицатионс оф Дата Мининг & Аггрегатион Архивирано 2008-12-17 на сајту Wayback Machine, NASCIO Research Brief, September 2004
  31. ^ Ohm, Paul (23. 8. 2012). „Don't Build a Database of Ruin”. Harvard Business Review. 
  32. ^ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
  33. ^ Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
  34. ^ AOL search data identified individuals, SecurityFocus, August 2006
  35. ^ Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare” (PDF). Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002. 
  36. ^ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
  37. ^ UK Researchers Given Data Mining Right Under New UK Copyright Laws. Архивирано 2014-06-09 на сајту Wayback Machine Out-Law.com. Preuzeto 14. Novembar 2014.
  38. ^ „Licences for Europe - Structured Stakeholder Dialogue 2013”. Evropska komisija. Архивирано из оригинала 23. 03. 2013. г. Приступљено 14. 11. 2014. 
  39. ^ „Text and Data Mining:Its importance and the need for change in Europe”. Association of European Research Libraries. Архивирано из оригинала 29. 11. 2014. г. Приступљено 14. 11. 2014. 
  40. ^ „Judge grants summary judgment in favor of Google Books — a fair use victory”. Lexology. 19. 11. 2013. Приступљено 14. 11. 2014. 
  41. ^ Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).
  42. ^ Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. S2CID 13473479. doi:10.1002/widm.24.  Проверите вредност парамет(а)ра за датум: |date= (помоћ)
  43. ^ Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions 2010 Архивирано на сајту Wayback Machine (4. мај 2019), Форрестер Ресеарцх, 1 Јулy 2008
  44. ^ Херсцхел, Гаретх; Магиц Qуадрант фор Цустомер Дата-Мининг Апплицатионс Архивирано на сајту Wayback Machine (20. октобар 2009), Гартнер Инц., 1 Јулy 2008
  45. ^ Нисбет, Роберт А. (2006); Дата Мининг Тоолс: Wхицх Оне ис Бест фор ЦРМ? Парт 1 Архивирано на сајту Wayback Machine (23. децембар 2016), Информатион Манагемент Специал Репортс, Јануарy 2006
  46. ^ Хаугхтон, Доминиqуе; Деицхманн, Јоел; Есхгхи, Абдолреза; Саyек, Селин; Теебагy, Ницхолас; Топи, Хеикки (2003). „А Ревиеw оф Софтwаре Пацкагес фор Дата Мининг”. Тхе Америцан Статистициан. 57 (4): 290—309. ЈСТОР 30037299. С2ЦИД 17232481. дои:10.1198/0003130032486. хдл:11693/49256. 
  47. ^ Гоебел, Мицхаел; Груенwалд, Ле (јун 1999). „А Сурвеy оф Дата Мининг анд Кноwледге Дисцоверy Софтwаре Тоолс” (ПДФ). СИГКДД Еxплоратионс. 1 (1): 20—33. С2ЦИД 2007403. дои:10.1145/846170.846172. 

Додатни материјали уреди

Такође погледајте уреди

Методе
Области примене
Примери примена
Повезане теме

Истраживање података се бави анализом података; за информације о извлачењу информација из података, погледајте:

Остали извори


Спољашње везе уреди