Нацрт:Vađenje podataka

Vađenje podataka spada u jedno od polja koje izučava informatika^[1]^[2]^[3] To je računarski proces otkrivanja obrazaca u velikim skupovima podataka pomoću metoda koje spadaju u oblasti veštačke inteligencije, mašinskog učenja, i baza podataka.^[1] Opšti cilj procesa izvlačenja podataka je da izvuče informacije iz skupa podataka i transformiše ih u razumljivu strukturu za dalju upotrebu.^[1] Pored koraka koji obuhvataju sirovu analizu, ono uključuje i rad sa bazama podataka, upravljanje podacima, pretprocesiranje podataka, složenost algoritama, , obradu pronađenih struktura podataka, prikazivanje podataka i internet algoritme.^[1] Otkrivanje podataka je korak u analizi podataka koji pripada "knowledge discovery in databases" procesu, odnosno KDD.^[4]

Naziv je pogrešan jer je cilj izvlačenje obrazaca i znanja iz velikog skupa podataka, ne izvlačenje podataka^[5] kao takvih. Ovo je poštapalica i često se primenjuje za bilo koji oblik podataka velike razmere ili obrade informacija (sakupljanje podataka, izvlačenje podataka, čuvanje podataka, analiza podataka, i statistika) kao i za veštačku inteligenciju i mašinsko učenje. Knjiga ''Data mining: Practical machine learning tools and techniques with Java''^[6] (koja najviše pokriva oblast mašinskog učenja) se originalno nazivala ''Practical machine learning'', а појам ''data mining'' je samo dodat radi marketiga.^[7] Često su opštiji nazivi (velikih razmera) analiza podataka i analitika – ili preciznije, veštačka inteligencija i mašinsko učenje – koji su prikladniji nazivi.

Stvaran posao izvlačenja podataka je automatska ili polu-automatska analiza velike količine podataka kako bi dobili prethodno nepoznate, interesantne obrasce kao što su grupe podataka, neobični podaci i nezavisni podaci. Ovo obično podrazumeva korišćenje tehnika nad bazama podataka kao što je prostorno indeksiranje. Ovi obrasci se zatim mogu posmatrati kao neka vrsta pregleda ulaznih podataka, a mogu se koristiti i u daljoj analizi, na primer, kod mašinskog učenja i prediktivne analize. Na primer, korak vađenja podataka može identifikovati grupe podataka koje se kasnije mogu koristiti kako bi obezbedili preciznije rezultate predviđanja od strane sistema za odluku. Ni prikupljanje podataka, priprema podataka, niti rezultat tumačenja ne pripadaju koraku izvlačenja podataka, ali pripadaju KDD koraku kao dodatni procesi.

Srodni termini su kopanje podataka i pecanje podataka, oni ukazuju na korišćenje metoda za izvlačenje podataka kako bi se veliki skupovi podataka podelili na manje iz statističkih razloga, time se utvrđuje ispravnost izvučenog obrasca.

Etimologija uredi

1960-tih, statističari su koristili termine kao što su "pecanje podataka" ili "kopanje podataka" da bi ukazali na to šta smatraju za lošu praksu u analiziranju podataka bez hipoteze najvišeg prioriteta. Termin "kopanje podataka" se pojavljuje 1990-tih u zajednici baza podataka. Za kratko vreme, 1980-tih, fraza "database mining"™, je korišćena, ali je firma sa bazom u San Dijegu po imenu HNC zaštitila, da bi predstavili svoju stanicu za pravljenje baza podataka;^[8] istraživači su prešli na termin "vađenje podataka". Ostali termini koji se koriste uključuju Arheologiju Podataka, Sakupljanje informacija, Otkrivanje informacija, učenje itd. Gregory Piatetsky-Shapiro je usvojio termin "Otkrivanje znanja u bazama podataka" za prvu radionicu na tu temu (KDD-1989), a ovaj termin je postao popularniji u zajednicama VI i Mašinskog Učenja. Štaviše, termin vađenje podataka je postao popularniji u poslovnoj i novinarskoj zajednici.^[9] Trenutno, Vađenje podataka i Otkrivanje znanja se koriste podjednako. Od 2007, "Prediktivna Analitika", a od 2011, "Nauka o podacima" su takođe termini kojima se može opisati ovo polje izučavanja.

Pozadina uredi

Ručno vađenje obrazaca iz podataka se radilo vekovima. Rane metode identifikacije uzoraka u podacima uključuju Bajesovu teoremu (1700-tih) i regresionu analizu (1800-tih). Sveprisutnost i rast snage kompjuterske tehnologije je dramatično povećala kolekciju podataka, skladištenje i manipulacionu sposobnost. Kako je skup podataka postajao sve veći i kompleksniji direktna analiza je postepeno unapređivana indirektno, automatskom obradom podataka, uz pomoć drugih otkrića u informatici, kao što su neuronske mreže, klaster analiza, genetski algoritmi (1950-tih), stablo odlučivanja i pravila odlučivanja (1960-tih) i podrška vektorskim mašinama (1990-tih). Vađenje podataka je proces primene ovih metoda sa namerom otkrivanja skrivenih obrazca u velikim skupovima podataka, to premošćuje jaz sa primenjene statičke i veštačke inteligencije (koja obično obezbedi matematičku pozadinu) na upravljanje bazama podataka isporučujući način na koji su podaci sačuvani u bazi da bi se izvršilo stvarno učenje i pokrenuli algoritmi otkrivanja efikasnije, dopuštajući da se ovakvi metodi primene na veće skupove podataka.

Proces uredi

Knowledge Discovery in Databases (KDD) process je često definisan pomoću sledećih faza:

(1) Selekcija

(2) Pretprocesiranje

(3) Transformacija

(4) Vađenje podataka

(5) Izvršavanje/Procena.^[4]

Proces postoji, ali, u mnogim varijacijama ove teme kao što je Cross Industry Standard Process for Data Mining (CRISP-DM), definiše se pomoću šest faza:

(1) Razumevanje posla

(2) Razumevanje podataka

(3) Priprema podataka

(4) Modelovanje

(5) Procena

(6) Razvoj

ili pojednostavnjeni procesi kao što su (1) pretprocesiranje, (2) vađenje podataka, i (3) potvrda rezultata.

Ankete sprovedene 2002, 2004, 2007 i 2014 pokazuju da je CRISP-DM vodeća metodologija korišćena od strane "kopača podataka".^[10] Jedini preostali standard za vađenje podataka koji se našao na pomenutim anketama je SEMMA. Nekoliko istraživačkih timova je objavilo kritike modela koji se koriste u vađenju podataka,^[11]^[12] Azevedo i Santos su uporedili CRISP-DM i SEMMA u 2008.^[13]

Pretprocesiranje uredi

Pre nego što se mogu koristiti algoritmi za vađenje podataka, mora se oformiti ciljani skup podataka. Pošto vađenje podataka pokriva samo obrasce prisutne u podacima, ciljani skup podataka treba biti dovonjno veliki da bi sadržao ove obrasce, dok ostatak mora biti dovoljno koncizan da se može izvršiti u prihvatljivom vremenskom roku. Zajednički izvor podataka je Skladište podataka. Pretprocesiranje je od esencijalnog značaja u analiziranju skupa podataka pre procesa vađenja podataka. Tada se čisti ciljani skup. Čišćenje podataka uklanja podatke koji nisu u skladu sa statistikom i podatke koji nisu potpuni.

Vađenje podataka uredi

Vađenje podataka uključuje šest zajedničkih faza:^[4]

Pronalaženje anomalija (Detekcija devijantnosti) – Identifikacija neobičnih podataka koji mogu biti interesantni ili grešaka u podacima koji zahtevaju dalju istragu.
Asocijativno pravilo učenja (Zavisno modelovanje) – Traši vezu među promenljivima. Na primer, supermarket može da sakupi podatke o potrošačkim navikama kupaca. Koristeći asocijativno pravilo učenja, supermarket može odrediti koji se proizvod najčešće kupuje i kasnije se ta informacija kože koristiti u matketinške svrhe. Ovo se često naziva "analiza korpe".
Klaster analiza – otkriva grupe i strukture podataka koje su na neki način slične bez korišćenja već postojećih struktura.
Klasifikacija – je faza generalizacije poznatih struktura koje se primenjuju na nove podatke. Na primer, e-mail program može klasifikovati poruku kao "legitimnu" ili kao "spam".
Regresiona analiza – pokušava da pronađe funkciju koja modeluje podatke uz minimalnu grešku.
Završnica – obežbeđuje kompaktniji prikaz skupa podataka, uključujući i vizuelizaciju.

Validacija rezultata uredi

Primer podataka sačinjen kopanjem podataka pomoću bota kojim je upravljao statističar Tyler Viglen, očigledno pokazuje vezu između takmičenja u spelovanju i broja ljudi u Ujedinjenim Američkim Zemljama koje je ubio smrtonosni pauk. Sličnost je očigledno slučajnost.

Vađenje podataka se nenamerno može pogrešno iskoristiti, a kasnije može dati značajne rezultate; ali ne predviđa dalje ponašanje i ne može se ponovo iskoristiti na novom uzorku podataka. Često je to rezultat prevelikog istraživanja hipoteza i nepravilne primene statističkog testiranja hipoteza. Jednostavna verzija ovog problema u mašinskom učenju je poznata kao prezasićenost, ali se isti problem može javiti u različitim fazama procesa.

Finalni korak u Otkrivanju Znanja iz podataka je potvrda da se obrasci proizvedeni od strane algoritama Vađenja Podataka nalaze u širem skupu podataka. Ne moraju svi uzorci pronađeni vađenjem podataka biti validni. Često se dešava da algoritmi za vađenje podataka nađu obrasce u delu za obuku a da se ti obrasci ne koriste u opštem skupu podataka. Ovo se naziva presasićenost. Da bi prevazišli ovo, procena koristi test nad podacima koje algoritam nije obradio. Naučeni obrasci se testiraju i rezlutujući izlaz se poredi sa željenim. Na primer, algoritam za vađenje podataka koji pokušava da razdvoji spam od legitimnih e-mailova se uči da to čini pomoću uzoraka mail-ova. Jednom naučeni, obrasci se testiraju nad skupom e mail-ova koje ne poznaju. Preciznost obrasca se meri po broju dobro klasifikovanih mail-ova. Mnoge statističke metode se koriste za procenu algoritma, kao što su ROC curves.

Ako naučeni obrasci ne ispunjavaju ženjene standarde, potrebno je ponovo izvršiti procenu i izmeniti korake pretprocesiranja i vađenja podataka. Ukoliko naučeni algoritmi ispunjavaju željene standarde, poslednji korak je interpretacija obrazaca i pretvarnje takvih obrazaca u znanje.

Istraživanje uredi

Najznačajnije telo na ovom polju je Association for Computing Machinery's (ACM) Special Interest Group (SIG) koje se bave otkrivanjem sazanja i kopanjem podataka (SIGKDD).^[14]^[15] Od 1989. ACM SIG je ugostio godišnju međunarodniu konferenciju,^[16] a od 1999 je objavio akademske novine pod nazivom "SIGKDD Explorations".^[17]

Informatičke konferencije iz oblasti vađenja podataka:

CIKM Conference – ACM Conference on Information and Knowledge Management
DMIN Conference – International Conference on Data Mining
DMKD Conference – Research Issues on Data Mining and Knowledge Discovery
DSAA Conference – IEEE International Conference on Data Science and Advanced Analytics
ECDM Conference – European Conference on Data Mining
ECML-PKDD Conference – European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
EDM Conference – International Conference on Educational Data Mining
INFOCOM Conference – IEEE INFOCOM
ICDM Conference – IEEE International Conference on Data Mining
KDD Conference – ACM SIGKDD Conference on Knowledge Discovery and Data Mining
MLDM Conference – Machine Learning and Data Mining in Pattern Recognition
PAKDD Conference – The annual Pacific-Asia Conference on Knowledge Discovery and Data Mining
PAW Conference – Predictive Analytics World
SDM Conference – SIAM International Conference on Data Mining (SIAM)
SSTD Symposium – Symposium on Spatial and Temporal Databases
WSDM Conference – ACM Conference on Web Search and Data Mining

Teme vezane za vađenje podataka us prezentovane na mnogim menadžment/baza podataka konferencijama kao što su ICDE Conference, SIGMOD Conference i International Conference on Very Large Data Bases

Standardi uredi

Pri definisanju standarta za procese u vađenju podataka bilo je potrebno dosta truda, na primer 1999 Evropski Cross Industry Standard Process for Data Mining (CRISP-DM 1.0) i 2004 Java Data Mining standart (JDM 1.0). Razvoj naslednika ovih procesa (CRISP-DM 2.0 and JDM 2.0) je bio aktivan 2006, ali je od tada razvoj u zastoju. JDM 2.0 je povučen bez konačnih rezultata.

Za razmenu izvučenih modela - posebno se koristi u prediktivnoj analitici - ključni standard je Predictive Model Markup Language (PMML). To je XML-baziran jezik razvojen od strane Data Mining Group (DMG) i podršan je kao format za razmenu kod mnogih aplikacija za vađenje podataka.Kao što i samo ime kaže, pokriva samo predikcione modele, koji je od velikog značaja u poslovnim aplikacijama. Međutim, ekstenzije za pokrivanje (na primer) podsvemirskog grupisanja su predložene nezavisno od DMG.^[18]

Značajna upotreba uredi

Vađenje podataka se koristi svuda gde su podaci zapisani u digitalnom obliku. Značajni primeri vađenja podataka se mogu pronaći u poslovanju, medicini, nauci i nadzoru.

Pitanja privatnosti i etike uredi

Dok termin "intelektualna analiza podataka" sama po sebi nema etičke posledice, često je povezana sa proizvodnjom informacija u pogledu ponašanja ljudi (etičke i drugo).^[19]

Zbog načina na koje inteligentna analiza podataka može da se koristi u nekim slučajevima i kontekstima, javljaju se pitanja u vezi privatnosti, zakonitosti i etike.^[20] posebno, data mining vlade ili komercijalni skupovi podataka za potrebe nacionalne bezbednosti ili u svrhu zakona, na primer, u programu Totalne Informacione Svesti ili ADVICE, podižu brigu o bezbednosti.^[21]^[22]

Vađenje podataka zahteva pripremu podataka koja može otkriti informacije ili obrasce koji mogu ugroziti privatnost. Najčešći način za to je putem agregiranja podataka. Agregacija podataka odnosi se na objedinjavanje podataka (moguće iz različitih izvora) na neki način to olakšava analizu (ali ona takođe može identifikovati lične podatake).^[23] Pretnja privatnosti pojedinaca dolazi u igru kada se podaci, nakon kompajliranja, njega vrši analitišar ili neka osoba zadužena za taj posao, on je u mogućnosti da identifikuje pojedince iako su podaci prvobitno bili anonimni.^[24]^[25]^[26]

Preporučuje se da se pojedinci upozore na sledeće stvari pre nego što se podaci prikupe:^[23]

na cilj prikupljanja podataka
kako će se ovi podaci koristiti;
ko će da iskopa podatke i koristi ih;
stanje bezbednosti u vezi sa pristupom podacima;
kako se prikupljeni podaci mogu ažurirati.

Podaci se takođe mogu menjati tako da budu anonimni, tako da pojedinci ne mogu biti identifikovani.^[23] Međutim, "podaci koji ne mogu da se identifikuju"/"anonimni podaci" mogu sadržati dovoljno informacija da identifikuju pojedinaca, kao što se i desilo kada je novinarima uspeo da pronađu nekoliko lica na osnovu pretrage podataka koje je izbacila kompanija AOL.^[27]

Nenamernim obelodanjivanjem ličnih informacija, provajder krši načela poštenog korišćenja podataka. Ova indiskrecija može dovesti do finansijskih, emocionalniih ili telesnih posledica. Primer kršenja privatnosti: apoteka je podnela tužbu protiv kompanije u 2011. godini za prodaju informacija o receptima firmama za vađenje podataka, koji, zauzvrat, šalju podatke farmaceutskim firmama.^[28]

Situacija u Evropi uredi

Evropa ima stroge zakone o privatnosti, ulažu se napori u cilju daljeg jačanja prava potrošača. Međutim, u U.S.-E.U. Safe Harbor Principles trenutno efikasno otkrivaju evropske korisnike koji prodaju poverljive informacije rada američkih kompanija. Nakon Edvard Snoudenovog globalnog obelodanjivanja, bila je velika diskusija, da se otkaže ovaj sporazum, podaci bi bili potpuno dostupni agencijama za nacionalnu bezbednost.^[uredi]

Situacija u SAD uredi

U Sjedinjenim Američkim Državama, privatnost se razmatra u Kongresu SAD kroz donošenje regulatornih kontrola, kao što su Health Insurance Portability and Accountability Act (HIPAA). HIPAA zahteva od pojedinca da da svoj "informisani pristanak" u vezi informacija koje oni daju trenutno i ubuduće. Prema članku objavljenom u iotech Business Week', "' HIPAA ne može ponuditi bilo kakvu veću zaštitu nego što dugogodišnji pravila već pružaju - kaže AAHC. Što je još važnije, pravila zaštite kroz informisan dodatno komplikuju stvari i zahtevaju strpljenje što često može dovesti do zbunjivanja prosečnog korisnika".^[29] To naglašava potrebu anonimnosti podataka pri agregaciji i praksi intelektualnoe analize podataka.

Softver uredi

Besplatan softver za inteligentno vađenje potaka i aplikacije uredi

Sledeće aplikacije su dostupne pod oupen-sors licencom. Dopušten je pristup izvornom kodu.

Carrot2: Frejmvork za rezultate pretrage i klaster analizu.
Chemicalize.org: hemijska struktura i pretraživačka mašina.
ELKI: univerzitetski istraživački projekat sa naprednom klaster analizom i metodama za otkrivanje grešaka pisan u Java programskom jeziku .
Kapija: obrada prirodnog jezika i alat za jezički inženjering.
KNIME: The Konstanz Information Miner, frejmvork za korisničku analizu podataka.
Masovna onlajn analiza (MOA): radi u realnom vremenu i može obraditi velike količine podataka, pisan je u Java programskom jeziku.
MLPACK biblioteka: zbirka gotovih za algoritama mašinskog učenja napisanih u C++u .
APJ (Alat za Prirodni Jezik): skup biblioteka i programa za simboličko i statističko procesiranje prirodnih jezika (PPJ), pisan je u jeziku Pajton.
OpenNN: Slobodna biblioteka neuronskih mreža.
Orange: komponenta bazirana na intelektualnoj analizi podataka i mašinskom učenju pisana u jeziku Pajton.
R (programski jezik): i koruženje za statistiku, inteligentno vađenje podataka i grafiku. Deo je projekta GNU.
SCaViS: Java kros-platforma za analizu podataka razvijena od strane Argonne National Laboratory.
scikit-learn je open source biblioteka mašinskog učenja za Pajton programski jezik.
SenticNet po API: semantički izvor koji se koristi u semantičkoj analizi.
Torch: je open source biblioteka za duboko proučavanje za LUA programski jezik i ima široku podršku za algoritme koji se odnose na mašinsko učenje.
UIMA: u UIMA (Unstructured Information Management Architecture) je frejmvork za analizu nestruktuiranih podataka, kao što su tekst, zvuk i video, koji je prvobitno bio razvijen od strane kompanije IBM.
Weka: skup softvera za mašinsko učenje napisanih u Java programskom jeziku.

Vlasnički softver za vađenje podataka i aplikacije uredi

Sledeće aplikacije su dostupne pod vlasnićkim licencama.

Angoss KnowledgeSTUDIO: alati za inteligentnu analizu podataka koje obezbeđuje Angoss.
Clarabridge: analiza teksta.
HP Vertica Analytics Platform: softver za inteligentnu analizu podataka koji proizvodi HP.
IBM SPSS Modeler softver za inteligentnu analizu podataka koji proizvodi IBM.
KXEN Modeler: alati za inteligentnu analizu podataka koje obezbeđuje KXEN.
LIONsolver: integrisani softver za inteligentno vađenje podataka, poslovnu inteligenciju i modelovanje koji sprovodi obuku i intelektualnu optimizaciju.
Megaputer inteligencija: softver za inteligentno vađenje podataka i teksta zvani PolyAnalyst.
Majkrosotfove usluge analize: softver za inteligentnu analizu podataka koji proizvodi Majkrosoft.
NetOwl: skup tekst na više jezika i suštine analitičkih proizvoda koji omogućavaju da se data mining.
Kompanija opentext™ za analizu velikih podataka: vizuelna i prediktivna analiza podataka putem otvorenog teksta Korporacija
Orakl inteligentna analiza podataka: softver za inteligentno vađenje podataka i teksta napravljen od strane kompanije Orakl.
P-sedam: platforma za automatizaciju analize podataka, multidisciplinovanu optimizaciju i inteligentno sakupljanje podataka napravljena od strane DATADVANCE.
Qlucore istraživač: softver za inteligentnu analizu podataka koji proizvodi Qlucore.
RapidMiner: okruženje za mašinsko učenje i data mining eksperimenata.
SAS analiza podataka: softver za inteligentnu analizu podataka koji proizvodi SAS Institut.
STATISTICA inteligentno vađenje podataka: softver za inteligentnu analizu podataka koji proizvodi firma "statsoft".
Tanagra: softver za vizuelizaciju-orijentisane analize podataka, kao i za učenje.

Istraživanja na tržištu uredi

Veliki broj istraživača i organizacija sačinjava kritike alata za analizu podataka . Ovo određuje neke prednosti i mane softverskih paketa. Oni takođe omogućuju pregled modela ponašanja, sklonosti i poglede ljudi iz struke. Neki od ovih izveštaja uključuje:

Hurwitz Victory Index: izveštaji za naprednu analitiku kao sredstvo za procenu tržišnih istraživanja, on izdvaja, kako i različito korišćenje analitičkih tehnologija tako i dobavljače, koji čine ove aplikacije mogućim.Nedavne studije
2011 Wiley interdisciplinarne kritike: Data Mining and Knowledge Discovery^[30]
Rexer Analytics Data Miner Surveys(2007-2013)^[31]
Istraživanje Forrester 2010 Prediktivna analitika^[32]
Kompanija Gartner 2008 "Magični Kvadrant" izveštaj^[33]
Robert A. Nisbet's 2006 tri serije članaka "alata i oblasti inteligentna analiza podataka: koji od njih bolji za CRM?"^[34]
Haughton et al.'s 2003 pregled softverskih paketa za oblast pametnog vađenja podataka od strane The American Statistican^[35]
Goebel & Gruenwald 1999 "Pregled Data Mining i Knowledge Discovery Software alata" kod SIGKDD istraživanja^[36]

Vidi još uredi

Metode

Aplikativni domeni

Primeri aplikacija

Srodne teme

Vađenje podataka se odnosi na analiziranje podataka; O vađenju informacija iz podataka pogledati:

References uredi

^ ^a ^b ^v ^g „Data Mining Curriculum”. ACM SIGKDD. 2006-04-30. Pristupljeno 2014-01-27.
^ Clifton, Christopher (2010). „Encyclopædia Britannica: Definition of Data Mining”. Pristupljeno 2010-12-09.
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”. Pristupljeno 2012-08-07.
^ ^a ^b ^v Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). „From Data Mining to Knowledge Discovery in Databases” (PDF). Pristupljeno 17. 12. 2008. CS1 održavanje: Format datuma (veza)
^ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. str. 5. ISBN 978-1-55860-489-6. „Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long”
^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 izd.). Elsevier. ISBN 978-0-12-374856-0. CS1 održavanje: Format datuma (veza)
^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research. 11: 2533—2541. „the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.”
^ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). „Lesson: Data Mining, and Knowledge Discovery: An Introduction”. Introduction to Data Mining. KD Nuggets. Pristupljeno 30. 8. 2012. CS1 održavanje: Format datuma (veza)
^ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
^ Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model.
^ Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models.
^ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview.
^ „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search.
^ „Google Scholar: Top publications - Data Mining & Analysis”. Google Scholar.
^ Proceedings, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
^ SIGKDD Explorations, ACM, New York.
^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. str. 48. ISBN 978-1-4503-0837-3. doi:10.1145/2023598.2023605.
^ Seltzer, William. „The Promise and Pitfalls of Data Mining: Ethical Issues” (PDF).
^ Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator. CS1 održavanje: Format datuma (veza)
^ Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782  . CS1 održavanje: Format datuma (veza)
^ Resig, John; and Teredesai, Ankur (2004). „A Framework for Mining Instant Messaging Services”. Proceedings of the 2004 SIAM DM Conference.
^ ^a ^b ^v Think Before You Dig: Privacy Implications of Data Mining & Aggregation, NASCIO Research Brief, September 2004
^ Ohm, Paul. „Don't Build a Database of Ruin”. Harvard Business Review.
^ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
^ Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
^ AOL search data identified individuals, SecurityFocus, August 2006
^ Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare”. Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002.
^ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
^ Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. doi:10.1002/widm.24. Pristupljeno October 21, 2011. Proverite vrednost paramet(a)ra za datum: |date= (pomoć)
^ Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).
^ Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions, Q1 2010, Forrester Research, 1 July 2008
^ Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications, Gartner Inc., 1 July 2008
^ Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM?
^ Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; and Topi, Heikki (2003); A Review of Software Packages for Data Mining, The American Statistician, Vol. 57, No. 4, pp. 290–309
^ Goebel, Michael; Gruenwald, Le (1999); A Survey of Data Mining and Knowledge Discovery Software Tools, SIGKDD Explorations, Vol. 1, Issue 1, pp. 20–33

Spomenice i zahvalnice uredi

**100 izmena**
43%

[acm-1] v ^g „Data Mining Curriculum”. ACM SIGKDD. 2006-04-30. Pristupljeno 2014-01-27.

[brittanica-2] Clifton, Christopher (2010). „Encyclopædia Britannica: Definition of Data Mining”. Pristupljeno 2010-12-09.

[elements-3] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”. Pristupljeno 2012-08-07.

[Fayyad-4] v Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). „From Data Mining to Knowledge Discovery in Databases” (PDF). Pristupljeno 17. 12. 2008. CS1 održavanje: Format datuma (veza)

[han-kamber-5] Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. str. 5. ISBN 978-1-55860-489-6. „Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long”

[witten-6] Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 izd.). Elsevier. ISBN 978-0-12-374856-0. CS1 održavanje: Format datuma (veza)

[7] Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research. 11: 2533—2541. „the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.”

[Mena-8] Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.

[9] Piatetsky-Shapiro, Gregory; Parker, Gary (2011). „Lesson: Data Mining, and Knowledge Discovery: An Introduction”. Introduction to Data Mining. KD Nuggets. Pristupljeno 30. 8. 2012. CS1 održavanje: Format datuma (veza)

[10] Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll

[Marban-11] Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model.

[kurgan-12] Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models.

[AzevedoSantos-13] Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview.

[14] „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search.

[15] „Google Scholar: Top publications - Data Mining & Analysis”. Google Scholar.

[16] Proceedings, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.

[17] SIGKDD Explorations, ACM, New York.

[18] Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. str. 48. ISBN 978-1-4503-0837-3. doi:10.1145/2023598.2023605.

[19] Seltzer, William. „The Promise and Pitfalls of Data Mining: Ethical Issues” (PDF).

[20] Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator. CS1 održavanje: Format datuma (veza)

[21] Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782  . CS1 održavanje: Format datuma (veza)

[22] Resig, John; and Teredesai, Ankur (2004). „A Framework for Mining Instant Messaging Services”. Proceedings of the 2004 SIAM DM Conference.

[NASCIO-23] v Think Before You Dig: Privacy Implications of Data Mining & Aggregation, NASCIO Research Brief, September 2004

[24] Ohm, Paul. „Don't Build a Database of Ruin”. Harvard Business Review.

[25] Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03

[26] Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11

[27] AOL search data identified individuals, SecurityFocus, August 2006

[28] Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare”. Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002.

[29] Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic

[30] Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. doi:10.1002/widm.24. Pristupljeno October 21, 2011. Proverite vrednost paramet(a)ra za datum: |date= (pomoć)

[rexer_informs-31] Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).

[32] Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions, Q1 2010, Forrester Research, 1 July 2008

[33] Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications, Gartner Inc., 1 July 2008

[34] Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM?

[35] Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; and Topi, Heikki (2003); A Review of Software Packages for Data Mining, The American Statistician, Vol. 57, No. 4, pp. 290–309

[36] Goebel, Michael; Gruenwald, Le (1999); A Survey of Data Mining and Knowledge Discovery Software Tools, SIGKDD Explorations, Vol. 1, Issue 1, pp. 20–33

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]