Istraživanje podataka

Istraživanje podataka (engl. Data Mining, koriste se i termini traženje podataka, prekopavanje podataka, rudarenje podataka, dejta majning) je proces otkrivanja šablona u velikim skupovima podataka, korišćenjem metoda mašinskog učenja, statistike i sistema baza podataka.[1] Istraživanje podataka predstavlja interdisciplinarnu podoblast informatike i statistike, čiji je opšti cilj izvlačenje informacija (korišćenjem inteligentnih metoda) iz skupova podataka i transformacija tih informacija u razumljivu strukturu radi dalje upotrebe.[1][2][3][4] Predstavlja korak analize u procesu "otkrivanja znanja u bazama podataka" (engl. knowledge discovery in databases, KDD).[5] Pored samog koraka analize, takođe uključuje i aspekte upravljanja podacima i bazama podataka, pretprocesiranja podataka, razmatranja statističkih modela i zaključaka, metrika zanimljivosti, razmatranja složenosti, postprocesiranja otkrivenih struktura, vizuelizacije i onlajn ažuriranja.[1] Razlika između analize i istraživanja podataka leži u tome što se analiza podataka koristi da bi se statistički modeli i hipoteze testirali na skupu podataka, npr. prilikom analize efikasnosti marketinške kampanje, nevezano od količine podataka. Za razliku od toga, istraživanje podataka koristi mašinsko učenje i statističke modele da otkrije tajne ili skrivene šablone u velikim količinama podataka.[6]

Termin "istraživanje podataka" je zapravo pogrešan, jer je cilj istraživanja izvlačenje šablona i znanja iz velikih količina podataka, a ne izvlačenje (rudarenje) samih podataka.[7] Takođe predstavlja žargonsku frazu[8] koja se često pripisuje bilo kom vidu obimne obrade podataka ili informacija (prikupljanju, izvlačenju, skladištenju, analizi i statistici) kao i bilo kojoj primeni računarskih sistema za podršku odlučivanju, uključujući i veštačku inteligenciju (npr. mašinsko učenje) i poslovnu inteligenciju. Knjiga Data mining: Practical machine learning tools and techniques with Java[9] (koja većinski pokriva teme mašinskog učenja) je prvenstveno trebalo da bude nazvana Practical machine learning, dok je termin istraživanje podataka (engl. data mining) dodat isključivo iz marketinških razloga.[10] Često su prikladniji opštiji termini (velikih razmera) kao što su analiza podataka i analitika ili, ukoliko se priča o stvarnim metodama, veštačka inteligencija i mašinsko učenje.

Stvaran zadatak istraživanja podataka jeste poluautomatska ili automatska analiza velike količine podataka kako bi se izvukli prethodno nepoznati, zanimljivi šabloni kao što su grupe zapisa podataka (analiza klastera), neobični zapisi (otkrivanje nepravilnosti) i zavisnosti (istraživanje pravilom asocijacije, istraživanje sekvencijalnih šablona). To obično uključuje korišćenje tehnika baza podataka kao što su prostorni indeksi. Ovi šabloni se onda mogu posmatrati kao vrsta kratkog pregleda ulaznih podataka i mogu se koristiti za dalju analizu ili, na primer, za mašinsko učenje i prediktivnu analitiku. Korak istraživanja podataka može, na primer, otkriti više grupa među podacima, koje se onda mogu koristiti kako bi se dobile preciznije prognoze rezultata korišćenjem sistema za podršku odlučivanju. Prikupljanje i priprema podataka, kao i tumačenje rezultata i izveštavanje, nisu deo koraka istraživanja podataka, ali kao dodatni koraci pripadaju KDD procesu.

Povezani pojmovi kopanje podataka, pecanje za podacima i njuškanje za podacima odnose se na primenu metoda istraživanja podataka da bi se uzorkovali delovi veće populacije skupova podataka koji su (ili bi mogli biti) premali da se na osnovu njih dođe do pouzdanih statističkih zaključaka o opravdanosti otkrivenih šablona. Ove metode se, ipak, mogu koristiti prilikom stvaranja novih hipoteza koje bi se koristile za testiranje na većim populacijama podataka.

Etimologija uredi

Tokom 1960-ih, statističari i ekonomisti su koristili izraze poput pecanje podataka ili kopanje podataka koji su se odnosili na ono što su oni smatrali lošom praksom analiziranja podataka bez apriori hipoteze. Ekonomista Majkl Lovl (engl. Michael Lovell) izraz "istraživanje podataka" koristi na slično ključan način u članku objavljenom u Pregledu ekonomskih nauka (engl. Review of Economic Studies) 1983. Lovl ukazuje da se istraživanje podataka "skriva pod više različitih alijasa od "eksperimentisanje" (pozitivno) do "pecanje" ili pak "njuškanje"(negativno)."[11]

Izraz istraživanje podataka se pojavio oko 1990. u zajednici koja se bavila bazama podataka koje rade sa bazama podataka, uglavnom sa pozitivnom konotacijom. Kratkoročno tokom 1980-ih se koristio izraz "istraživanje baza podataka"™, ali nakon što ga je HNC, kompanija iz San Dijega, zaštitila kako bi predstavila Database Mining Workstation;[12] istraživači su se stoga okrenuli izrazu istraživanje podataka. Drugi korišćeni izrazi uključuju arheologija podataka, skupljanje informacija, otkrivanje informacija, izvlačenje znanja, itd. Gregori Pjatecki Šapiro (engl. Gregory Piatetsky-Shapiro) je osmislio izraz "otkrivanje znanja u bazama podataka" za prvu radionicu (KDD-1989) na istu temu i ovaj izraz je postao popularniji u zajednici veštačke inteligencije i mašinskog učenja. Međutim, izraz istraživanje podataka je postao popularniji u novinarskim i poslovnim zajednicama.[13] Trenutno, izrazi istraživanje podataka i otkrivanje znanja mogu da se koriste razmenljivo.

U akademskoj zajednici, glavni forumi za istraživanje su započeti 1995. kada je Prva internacionalna konferencija o istraživanju podataka i otkrivanju znanja (KDD-95) osnovana u Montrealu pod pokrićem AAAI. Koorganizatori su bili Usama Fajad i Ramsami Uturusami. Godinu dana kasnije, 1996. Usama Fajad je osnovao Kluverov časopis koji se zvao Istraživanje Podataka i Otkrivanje Znanja (engl. Data Mining and Knowledge Discovery) kao glavni urednik. Kasnije je pokrenuo SIGKDD pretplatu na časopis SIGKDD istraživanja (engl. SIGKDD Explorations) .[14] KDD Internacionalna konferencija je postala primarno najkvalitetnija konferencija u oblasti istraživanja podataka sa stopom prihvatanja predloga naučnih radova ispod 18%. Časopis Istraživanje podataka i otkrivanje znanja (engl. Data Mining and Knowledge Discovery) je primarni istraživački časopis u ovoj oblasti.

Istorija uredi

Vekovima su se šabloni ručno izvlačili iz podataka. Rane metode prepoznavanja šablona u podacima uključuju Bajesovu teoremu (1700-te god.) i regresionu analizu (1800-te god.). Širenje, sveprisutnost i rastuća moć kompjuterske tehnologije je dramatično povećala prikupljanje podataka, skladištni prostor i mogućnost manipulacije njima. Pošto su skupovi podataka postali veći i kompleksniji, direktni analiza podataka je poboljšavana indirektnom, automatskom obradom podataka, uz pomoć drugih otkrića u informatici poput neuronske mreže, analize klastera, genetskih algoritama, (1950-te god.) stabla odlučivanja i pravila odlučivanja (1960.) i metode potpornih vektora (1990-te god.). Istraživanje podataka je proces primenjivanja ovih metoda sa namerom otkrivanja skrivenih šablona[15] u veilkim skupovima podataka. Prevazilazi jaz između primenjene statistike i veštačke inteligencije (koja uglavnom pruža matematičku potporu) u upravljanju bazama podataka korišćenjem načina na koji se podaci skladište i indeksiraju u bazama podataka kako bi se algoritmi za učenje i otkrivanje izveli efikasnije, omogućavajući takvim metodama da budu primenjene na sve većim skupovima podataka.

Proces uredi

Proces otkrivanja znanja u bazama podataka je obično definisan sledećim koracima:

  1. Selekcija
  2. Pretprocesiranje
  3. Transformacija
  4. Istraživanje podataka
  5. Interpretacija/procena[5]

Međutim, postoji mnogo varijacija ovog modela, kao što je Među-industrijski standardni proces za istraživanje podataka (engl. CRISP DM - Cross-industry standard process for data mining), koji definiše šest faza:

  1. Razumevanje poslovanja
  2. Razumevanje podataka
  3. Priprema podataka
  4. Modelovanje
  5. Procena
  6. Razvoj

ili pojednostavljen proces kao što je (1) pretprocesiranje, (2) istraživanje podataka i (3) potvrđivanje rezultata.

Ankete sprovedene u 2002, 2004, 2007. I 2014. godini, pokazuju da je CRISP-DM metodologija najkorišćenija među rudarima podataka.[16] SEMMA je bio jedini drugi standard istraživanja podataka u ovim anketama. Međutim, 3 do 4 puta više ljudi je reklo da koristi CRISP-DM metodologiju. Nekoliko timova istraživača je objavilo preglede modela procesa istraživanje podataka,[17][18] a Azvedo i Santos su sproveli poređenje CRISP-DM i SEMMA modela 2008. godine.[19]

Pretprocesiranje uredi

Pre korišćenja algoritama za istraživanje podataka, mora se sastaviti ciljani skup podataka. Kako istraživanje podataka može da otkrije jedino šablone koji zapravo postoje u podacima, ciljani skup podataka mora da bude dovoljno veliki da sadrži te šablone, ali i da bude dovoljno mali da bi mogao da se istražuje u prihvatljivim vremenskim granicama. Čest izvor podataka jesu tržište podataka i skladište podataka. Pretprocesiranje je neophodno za analizu multivarijabilnih skupova podataka pre istraživanja podataka. Ciljani skup podataka se zatim sređuje. Sređivanje podataka uklanja sva posmatranja koja sadrže šum ili kojima nedostaju vrednosti.

Istraživanje podataka uredi

Istraživanje podataka se sastoji iz šest čestih tipova zadataka:[5]

  • Otkrivanje nepravilnosti(atipičnih podataka/promena/odstupanja) - otkrivanje neobičnih zapisa podataka koji mogu biti zanimljivi ili grešaka u podacima koje zahtevaju dalje istraživanje.
  • Učenje pravilom asocijacije(modelovanje zavisnosti) - traganje za vezama između promenljivih. Na primer, supermarket može da skuplja podatke o kupovnim navikama kupaca. Korišćenjem učenja pravilom asocijacije, supermarket može da odredi koji proizvodi se često kupuju zajedno, a zatim da iskoristi tu informaciju za potrebe marketinga. Ovo se ponekad naziva analiza potrošačke korpe.
  • Klasterovanje - zadatak otkrivanja grupa i struktura u podacima koji su na neki način slični, bez korišćenja već poznatih struktura u podacima.
  • Klasifikacija - zadatak generalizacije poznatih struktura koje je potrebno primeniti nad novim podacima. Na primer, imejl program može da klasifikuje imejlove kao „legitimni” ili kao „spem”.
  • Regresija - pokušava da pronađe funkciju koja oblikuje podatke sa najmanjom greškom, tj. Za procenu veza između podataka ili skupova podataka.
  • Sažimanje - pruža kompaktniji uvid u skup podataka, uključujući vizualizacije i generisanje izveštaja.

Potvrđivanje rezultata uredi

 
Primer podataka proizvedenih kopanjem podataka preko bota kojim je upravljao statističar Tajler Vigen, koji pokazuju usku vezu između reči koje su donele pobedu na „speling” (eng. spelling bee) takmičenju i broja ljudi koji su umrli od ujeda otrovnih pauka u Sjedinjenim Američkim Državama. Sličnost u trendovima je očigledno slučajnost.

Istraživanje podataka se može nesvesno loše iskoristiti, što zatim dovodi do rezultata koji na prvi pogled deluju bitno; ali zapravo ne predviđaju buduće ponašanje niti mogu biti reprodukovani na novim uzorcima podataka, te nemaju nikakve koristi. Ovakvi rezultati su česti nakon istraživanja previše hipoteza i nakon lošeg statističkog testiranja hipoteza. Jednostavan oblik ovog problema u mašinskom učenju se zove preprilagođavanje modela. Kako se taj problem može pojaviti u različitim fazama procesa, to dovodi do toga da razdvajanje na trening i test skupove - kada je to uopšte moguće - nije dovoljno da spreči pojavu ovog problema.[20]


Poslednji korak u otkrivanju znanja iz podataka je potvrđivanje da šabloni koje su proizveli algoritmi istraživanja podataka, postoje u celom skupu podataka. Nisu svi šabloni koje su ti algoritmi pronašli nužno tačni. Često se dešava da algoritmi istraživanja podataka pronađu šablone u trening skupu koji ne postoje u celokupnom skupu podataka. Ovo se zove pretreniranje modela. Kako bi se ovaj problem prevazišao, u proceni se koristi test skup podataka na kojima algoritmi istraživanja nisu trenirani. Naučeni šabloni se primenjuju na tom test skupu, a krajnji rezultat se poredi sa traženim rezultatom.

Na primer, algoritam istraživanja podataka koji pokušava da razdvoji „spem” i „legitimne” imejlove, bio bi treniran na trening skupu imejl uzoraka. Po završetku treniranja, naučeni šabloni se primenjuju na test skupu imejlova na kom algoritam nije bio treniran. Preciznost šablona se zatim meri po tome koliko imejlova je tačno klasifikovano. Postoji veliki broj statističkih metoda za procenu algoritma, kao što su na primer ROC krive(engl. Receiver operating characteristic) .

Ili na primeru regresije, algoritam istraživanja bi bio takođe treniran na trening skupu, ali bi predviđao na primer temperaturu sledećeg dana. Zatim bi se taj naučeni šablon primenio na test skupu. Primer statističke metode za procenu regresionih modela je koren srednje kvadratne greške (eng. Root Mean Squared Error, RMSE).

Ako naučeni šabloni ne dostižu željene standarde, neophodno je da naknadno preispitamo i izmenimo korake pretprocesiranja i istraživanja podataka. Ako naučeni šabloni dostižu željene standarde, onda je poslednji korak da se protumače ti šabloni, a zatim i pretvore u znanje.

Istraživanje uredi

Glavno telo u struci je Specijalna Ineteresna grupa (SIG) Udruženja za računarske mašine (engl. Association for Computing Machinery, ACM) za otkrivanje znanja i rudarenje podataka (SIGKDD)”.[21] [22]Od 1989. godine, ACM SIG domaćin je godišnje internacionalne konferencije i objavljuje svoj zapisnik[23], a od 1999. godine objavljuje svoj dvogodišnji akademski žurnal čije je ime SIGKDD Explorations.[24]

Konferencije za rudarenje podataka u informatici sadrže:

Teme o istraživanju podataka su takođe prisutne na mnogim konferencijama o upravljanju podataka/bazama podataka kao što su ICDE konferencija, SIGMOD konferencija i Internacionalna konferencija o veoma velikim bazama podataka.

Standardi uredi

Postojali su napori da se definišu standardi za proces istraživanja podataka, na primer evropski međuindustrijski standardni proces za istraživanje podataka (CRISP-DM 1.0) iz 1999. godine i standard za istraživanje podataka u Javi (JDM 1.0) iz 2004. godine. Razvoj naslednika ovim procesima (CRISP-DM 2.0 i JDM 2.0) bio je aktivan u 2006. ali je od tada zaustavljen. JDM 2.0 je povučen pre dostizanja krajnje verzije.

Za razmenu izvučenih modela - posebno za korišćenje u prediktivnoj analitici - ključni standard je PMML (eng. Predictive Model Markup Language), koji je jezik baziran na XML-u, razvijan od strane Grupe za istraživanje podataka (eng. Data Mining Group, DMG) i podržan kao format razmene od mnogih aplikacija za istraživanje podataka. Kao što ime kaže, pokriva samo prediktivne modele, poseban zadatak velike važnosti za poslovne aplikacije. Međutim, nastavci za podržavanje(na primer) klasterovanja potprostora bili su predloženi nezavisno od DMG.[25]

Značajne namene uredi

Istraživanje podataka se koristi kad god ima dostupnih digitalnih podataka. Značajni primeri istraživanja podataka mogu se naći u poslovanju, medicini, nauci i nadzoru.

Pitanje privatnosti i etike uredi

Dok termin "istraživanje podataka" nema etičkih implikacija, često se povezuje sa istraživanjem informacija povezanih sa ljudskim ponašanjem (etičkim ili ne).[26]

Način na koji se istraživanje podataka koristi može u određnom kontekstu ili slučajevima dovesti u pitanje privatnost, zakonitost i etiku.[27] Naročito, vlada za istraživanje podataka ili komercijalni skupovi podataka za potrebe nacionalne bezbednosti ili sprovođenja zakona, kao što je u Programu svesne informisanosti (engl. Total Information Awareness Program) ili u ADVISE-u, pokrenuli su pitanje o privatnosti.[28][29]

Istraživanje podataka zahteva njihovo pripremanje koje može otkriti informacije ili šablone koji mogu ugroziti obaveze poverljivosti i privatnosti. Uobičajen način da se to dogodi je agregacija podataka. Ona obuhvata kombinovanje podataka (eventualno sa različitih izvora) na način koji olakšava analizu (ali to takođe može učiniti identifikaciju privatnih ili podataka na individualnom nivou deduktivnim ili na drugi način vidljivim).[30]Ovo nije istraživanje podataka per se, već rezultat prethognog pripremanja podataka - za potrebe - analize. Pretnja privatnosti pojedinca stupa na snagu kada podaci, kada se jednom kompajliraju, uzrokuju da rudar podataka, ili bilo ko ko ima pristup novosastavljenom skupu podataka, bude u mogućnosti da identifikuje određene pojedince, posebno kada su podaci bili izvorno anonimni.[31][32][33]

Preporučuje se da se pojedinac upozna sa sledećim pre prikupljanja podataka:[30]

  •  svrha prikupljanja podataka i svih (poznatih) projekata istraživanja podataka;
  • kako će podaci biti iskorišćeni;
  •  ko će moći da rudari podatke i koristi njih i njihove derivate;
  •  stanje bezbednosti koje obuhvata pristup podacima;
  •  kako se prikupljeni podaci mogu ažurirati.

Podaci se takođe mogu modifikovati tako da postanu anonimni, tako da se pojedinci ne mogu lako identifikovati.[30] Međutim, čak i "deidentifikovani"/"anonimizovani" skupovi podataka mogu potencijalno da sadrže dovoljno informacija koje omogućuju identifikaciju pojedinaca, kao što se dogodilo kada su novinari uspeli da pronađu nekoliko osoba na osnovu skupa istorije pretraživanja koje je nehotice objavio AOL.[34]

Nehotično otkrivanje ličnih informacija, koje vode do provajdera, krši Praksu poštene informacije. Ova nesmotrenost može prouzrokovati finansijske, emocionalne ili telesne povrede pojedincima. U jednom slučaju kršenja privatnosti, pokrovitelji Valgrinsa podneli su tužbu protiv kompanije 2011. godine zbog prodaje informacija o receptu kompanijama za istraživanje podataka, koje su zatim dostavljale te podatke farmaceutskim kompanijama.[35]

Situacija u Evropi uredi

Evropa ima prilično jake zakone o privatnosti i u toku su napori za dalje jačanje prava potrošača. Međutim, Američko-Evropski "Principi sigurne luke" (engl. U.S.-E.U. Safe Harbor Principles) trenutno efektivno dozvoljavaju američkim kompanijama iskorišćavanje privatnosti evropskih korisnika. Kao posledica Razotkrivanja globalnog nadzora (engl. global surveillance disclosures) Edvarda Snuodena, došlo je do pojačane rasprave o opozivu ovog sporazuma, naročito zbog potpune izloženosti podataka Nacionalnoj sigurnosnoj agenciji, a pokušaji da se postigne sporazum su propali.[тражи се извор]

Situacija u Sjedinjenim Državama uredi

U Sjedinjenim Američkim Državama, Kongres SAD se bavio pitanjima privatnosti usvajanjem regulatornih kontrola kao što je Zakon o prenosivosti i odgovornosti za zdravstveno osiguranje (engl. Health Insurance Portability and Accountability Act, HIPAA). HIPAA zahteva od pojedinaca da daju svoj "informisani pristanak" u vezi informacija koje pružaju i nameravanim sadašnjim i budućim upotrebama. Prema članku objavljenom u Biotech Business Week-u, " U praksi, HIPAA možda neće ponuditi veću zaštitu od dugogodišnjih propisa u oblasti istraživanja, " kaže AAHC. "Važnije, cilj pravila zaštite putem informisanog pristanka približava se nivou nerazumljivosti za prosečne pojedince.” [36] Ovo naglašava potrebu za anonimnošću podataka u agregaciji podataka i rudarskim praksama.

Zakonodavstvo SAD-a o privatnosti informacija kao što je HIPAA i Zakon o porodičnim obrazovnim pravima i privatnosti (engl. Family Educational Rights and Privacy Act, FERPA), odnosi se samo na specifične oblasti na koje se odnosi svaki takav zakon. Korišćenje istraživanja podataka od strane većine preduzeća u SAD ne kontroliše nijedno zakonodavstvo.

Zakon o autorskim pravima uredi

Situacija u Evropi uredi

Zbog nedostatka fleksibilnosti u evropskom zakonu o autorskim pravima i bazama podataka, istraživanje radova sa autorskim pravima kao što je istraživanje internet sadržaja bez dozvole vlasnika autorskih prava nije legalno. Dok je u Evropi baza podataka koja je skup čistih podataka verovatno bez autorskih prava, ali prava baze podatka možda postoje, što znači da istraživanje podatka postaje predmet propisa Direktive baza podataka. Na predlog Hargrivsovog pregleda (engl. eng. Hargreaves review), ovo je uzrokovalo da vlada Ujedinjenog kraljevstva izmeni svoj zakon o autorskim pravima 2014. godine[37] da bi dozvolila istraživanje sadržaja kao ograničenje i izuzetak. Tek sledeća zemlja na svetu posle Japana, koja je uvela izuzetak 2009. godine za istraživanje podataka. Međutim, zbog restrikcija Direktive autorskih prava, izuzetak Ujedinjenog kraljevstva dozvoljava samo istraživanje za nekomercijalne svrhe. Zakon autorskih prava Ujedinjenog kraljevstva takođe ne dozvoljava promenu ove mere ugovornim uslovima. Evropska komisija olakšala je diskusiju zainteresovanim stranama o istraživanju teksta i podataka 2013. godine pod nazivom “Licence za Evropu” (eng. Licences for Europe).[38] Fokus na rešenje ovog pravnog pitanja koje su licence, a ne ograničenja i izuzeci dovelo je predstavnike univerziteta, istraživača, biblioteka, grupa civilnog društva i izdavače otvorenog pristupa da napuste dijalog zainteresovanih strana u maju 2013. godine.[39]

Situacija u Sjedinjenim državama uredi

U kontrast Evropi, fleksibilna priroda američkog zakona o autorskim pravima, a posebno poštene upotrebe znači da istraživanje sadržaja u Americi, kao i ostalim državama sa sličnim zakonom kao što su Izrael, Tajvan, Južna Koreja smatra se legalnim. Pošto je istraživanje sadržaja transformativno, što znači da ne zamenjuje originalno delo, smatra se da je zakonito pod poštenom upotrebom. Na primer, kao deo u nagodbi Gugl knjiga, presedavajući sudija na slučaju presudio je da je Guglov projekat digitalizacije knjiga sa autorskim pravima zakonit, delom zbog transformativnog korišćenja koji je projekat prikazivao - jedan od kojih je istraživanje teksta i podatka.[40]

Softver uredi

Besplatni softver otvorenog koda i aplikacije za istraživanje podataka uredi

Sledeće aplikacije su dostupne uz besplatne ili licence otvorenog koda. Takođe je dozvoljen javni pristup izvršnom kodu aplikacija.

  • Carrot2 : okvir za klasterovanje teksta i rezultata pretrage.
  • Chemicalize.org: "rudar" hemijskih struktura i veb pretraživač
  • ELKI: Univerzitetski istraživački projekat za naprednu analizu klastera i sa metodama otkrivanja autlajera, napisan u Java programskom jeziku.
  • GATE: alat za obradu prirodnih jezika (engl. Natural language processing, NLP) i inženjering jezika.
  • KNIME: rudar Konstanc informacija (engl. “The Konstanz Information Miner”), lak za korišćenje i razumljiv okvir za detaljnu analizu podataka.
  • Masivna onlajn analiza (engl. Massive Online Analysis, MOA): Proces istraživanja velikog skupa podataka u realnom vremenu sa alatima za neočekivane promene, napisan u Java programskom jeziku.
  • MEPX: višeplatformni alat za probleme regresije i klasifikacije zasnovan na varijanti genetskog programiranja.
  • ML-Flex: softverski paket koji omogućava korisnicima da integrišu pakete mašinskog učenja drugih korisnika napisanih u bilo kom jeziku, da izvrše analize klasifikacije paralelno preko više čvorova, i da naprave HTML izveštaje rezultata klasifikacije.
  • mlpack: kolekcija spremnih algoritama mašinskog učenja, napisana u C++ programskom jeziku.
  • NLTK (eng. Natural Language Toolkit): paket biblioteka i programa za simboličnu i statističku obradu prirodnih jezika za Python programski jezik.
  • OpenNN: otvorena biblioteka za neuronske mreže.
  • Orange: softverski paket za istraživanje podataka i mašinsko učenje na osnovu komponenti, napisan u Python programskom jeziku.
  • R: programski jezik i softversko okruženje za statističko računarstvo, istraživanje podataka i grafiku. On je deo GNU projekta.
  • scikit-learn: biblioteka za mašinsko učenje otvorenog koda za Python programski jezik.
  • Torch: biblioteka za duboko učenje otvorenog koda za Lua programski jezik i okvir za naučno računarstvo sa širokim rasponom podrške algoritama mašinskog učenja.
  • UIMA (eng. Unstructured Information Management Architecture): komponentni okvir za analizu nestrukturiranog sadržaja kao što su tekst, audio i video sadržaj - razvijen od strane IBM-a.
  • Veka (eng. Weka): paket softverskih aplikacija za mašinsko učenje napisan u Java programskom jeziku.

Vlasnički softveri i aplikacije za istraživanje podataka uredi

Sledeće aplikacije su dostupne uz vlasničke licence:

Ankete tržišta uredi

Nekoliko istraživača i organizacija je sprovelo pregled alata za istraživanje podataka i anketiranje rudara podataka. Oni otkrivaju neke prednosti i mane softverskih paketa. Takođe obezbeđuju pregled ponašanja, preferencija i stavova rudara podataka. Neki od tih izveštaja sadrže:

  • Hurvicov indeks pobede (engl. Hurwitz Victory Index): Izveštaj za naprednu analitiku kao alat za procenu istraživanja tržišta, ističe i raznoliku upotrebu tehnologije za naprednu analitiku i prodavace koji proizvode te aplikacije. Skorašnje istraživanje.
  • Rekserova analitika anketa rudara podataka (2007—2015)[41]
  • 2011. Vajlijevi interdisciplinarni pregledi (engl. Wiley Interdisciplinary Reviews): istraživanje podataka i otkrivanje znanja.[42]
  • Foresterov izveštaj (engl. Forrester Research) istraživanja rešenja prediktivne analitike i istraživanje podataka 2010. godine.[43]
  • Gartnerov izveštaj „Magičnog kvadranta" 2008. godine.[44]
  • Robert A. Nizbetova serija od tri članka „Alat za istraživanje podataka: Koji je najbolji za marketing orijentisan kupcima?" 2006. godine.[45]
  • Hogton et alov (engl. Haughton et al), pregled softverskih paketa za istraživanje podataka u naučnom časopisu „The American Statistician” 2003. godine.[46]
  • Gebelova i Gruenvaldova „Anketa o softverskim alatima za istraživanje podataka i otkrivanje znanja" u SIGKDD istraživanjima 1999. godine.[47]

Reference uredi

  1. ^ а б в „Data Mining Curriculum”. ACM SIGKDD. 30. 4. 2006. Приступљено 27. 1. 2014. 
  2. ^ Clifton, Christopher (2010). „Encyclopædia Britannica: Definition of Data Mining”. Приступљено 9. 12. 2010. 
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”. Архивирано из оригинала 10. 11. 2009. г. Приступљено 7. 8. 2012. 
  4. ^ Han, Kamber, Pei, Jaiwei, Micheline, Jian (9. 6. 2011). Data Mining: Concepts and Techniques (3rd изд.). Morgan Kaufmann. ISBN 978-0-12-381479-1. 
  5. ^ а б в Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). „From Data Mining to Knowledge Discovery in Databases” (PDF). Приступљено 17. 12. 2008. 
  6. ^ Olson, David L. (2007). „Data mining in business services”. Service Business. 1 (3): 181—193. S2CID 154104540. doi:10.1007/s11628-006-0014-7. 
  7. ^ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. стр. 5. ISBN 978-1-55860-489-6. „Thus, data mining should have been more appropriately named "knowledge mining from data" which is unfortunately somewhat long 
  8. ^ OKAIRP 2005 Fall Conference, Arizona State University Архивирано 2014-02-01 на сајту Wayback Machine
  9. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30. 1. 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 изд.). Elsevier. ISBN 978-0-12-374856-0. 
  10. ^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). „WEKA Experiences with a Java open-source project”. Journal of Machine Learning Research. 11: 2533—2541. „the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. 
  11. ^ Lovell, Michael C. (1983). „Data Mining”. The Review of Economics and Statistics. 65 (1): 1—12. JSTOR 1924403. doi:10.2307/1924403. 
  12. ^ Mena, Jesus. (2011). Machine learning forensics for law enforcement, security, and intelligence. Boca Raton, FL: CRC Press. ISBN 9781439860700. OCLC 753970361. 
  13. ^ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. Приступљено 30 August 2012.
  14. ^ Piatetsky-Shapiro, Gregory; Fayyad, Usama (2012). „An introduction to SIGKDD and a reflection on the term 'data mining'. ACM Sigkdd Explorations Newsletter. 13 (1): 102—103. S2CID 13314420. doi:10.1145/2207243.2207269. 
  15. ^ Kantardzic, Mehmed. (2003). Data mining : concepts, models, methods, and algorithms. Hoboken, NJ: Wiley-Interscience. ISBN 978-0-471-22852-3. OCLC 51437378. 
  16. ^ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
  17. ^ Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca. ISBN 978-3-902613-53-0. стр. 438-453., February 2009, I-Tech, Vienna, Austria.
  18. ^ Kurgan, Lukasz A.; Musilek, Petr (2006). „A survey of Knowledge Discovery and Data Mining process models”. The Knowledge Engineering Review. 21: 1—24. S2CID 32286404. doi:10.1017/S0269888906000737. 
  19. ^ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Архивирано 2013-01-09 на сајту Wayback Machine. In Proceedings of the IADIS European Conference on Data Mining 2008, pp. 182–185.
  20. ^ Hawkins, Douglas M (2004). „The problem of overfitting”. Journal of Chemical Information and Computer Sciences. 44 (1): 1—12. PMID 14741005. S2CID 12440383. doi:10.1021/ci0342472. 
  21. ^ „Microsoft Academic Search: Top conferences in data mining”. Microsoft Academic Search. Архивирано из оригинала 19. 11. 2014. г. 
  22. ^ „Google Scholar: Top publications - Data Mining & Analysis”. 
  23. ^ „International Conferences on Knowledge Discovery and Data Mining, ACM, New York.”. Архивирано из оригинала 30. 4. 2010. г. Приступљено 2. 5. 2019. 
  24. ^ SIGKDD Explorations, ACM, Njujork
  25. ^ Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). „An extension of the PMML standard to subspace clustering models”. Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. стр. 48. ISBN 978-1-4503-0837-3. S2CID 14967969. doi:10.1145/2023598.2023605. 
  26. ^ Seltzer, William (2005). „The Promise and Pitfalls of Data Mining: Ethical Issues” (PDF). ASA Section on Government Statistics. American Statistical Association. 
  27. ^ Pitts, Chip (15. 3. 2007). „The End of Illegal Domestic Spying? Don't Count on It”. Washington Spectator. Архивирано из оригинала 29. 10. 2007. г. 
  28. ^ Taipale, Kim A. (15. 12. 2003). „Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data”. Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782 . Архивирано из оригинала 05. 11. 2014. г. Приступљено 03. 05. 2019. 
  29. ^ Resig, John. „A Framework for Mining Instant Messaging Services” (PDF). Приступљено 16. 3. 2018. 
  30. ^ а б в Think Before You Dig: Privacy Implications of Data Mining & Aggregation Архивирано 2008-12-17 на сајту Wayback Machine, NASCIO Research Brief, September 2004
  31. ^ Ohm, Paul (23. 8. 2012). „Don't Build a Database of Ruin”. Harvard Business Review. 
  32. ^ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03
  33. ^ Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11
  34. ^ AOL search data identified individuals, SecurityFocus, August 2006
  35. ^ Kshetri, Nir (2014). „Big data׳s impact on privacy, security and consumer welfare” (PDF). Telecommunications Policy. 38 (11): 1134—1145. doi:10.1016/j.telpol.2014.10.002. 
  36. ^ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
  37. ^ UK Researchers Given Data Mining Right Under New UK Copyright Laws. Архивирано 2014-06-09 на сајту Wayback Machine Out-Law.com. Preuzeto 14. Novembar 2014.
  38. ^ „Licences for Europe - Structured Stakeholder Dialogue 2013”. Evropska komisija. Архивирано из оригинала 23. 03. 2013. г. Приступљено 14. 11. 2014. 
  39. ^ „Text and Data Mining:Its importance and the need for change in Europe”. Association of European Research Libraries. Архивирано из оригинала 29. 11. 2014. г. Приступљено 14. 11. 2014. 
  40. ^ „Judge grants summary judgment in favor of Google Books — a fair use victory”. Lexology. 19. 11. 2013. Приступљено 14. 11. 2014. 
  41. ^ Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences).
  42. ^ Mikut, Ralf; Reischl, Markus (September—October 2011). „Data Mining Tools”. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431—445. S2CID 13473479. doi:10.1002/widm.24.  Проверите вредност парамет(а)ра за датум: |date= (помоћ)
  43. ^ Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions 2010 Архивирано на сајту Wayback Machine (4. мај 2019), Forrester Research, 1 July 2008
  44. ^ Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications Архивирано на сајту Wayback Machine (20. октобар 2009), Gartner Inc., 1 July 2008
  45. ^ Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM? Part 1 Архивирано на сајту Wayback Machine (23. децембар 2016), Information Management Special Reports, January 2006
  46. ^ Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; Topi, Heikki (2003). „A Review of Software Packages for Data Mining”. The American Statistician. 57 (4): 290—309. JSTOR 30037299. S2CID 17232481. doi:10.1198/0003130032486. hdl:11693/49256. 
  47. ^ Goebel, Michael; Gruenwald, Le (jun 1999). „A Survey of Data Mining and Knowledge Discovery Software Tools” (PDF). SIGKDD Explorations. 1 (1): 20—33. S2CID 2007403. doi:10.1145/846170.846172. 

Dodatni materijali uredi

Takođe pogledajte uredi

Metode
Oblasti primene
Primeri primena
Povezane teme

Istraživanje podataka se bavi analizom podataka; za informacije o izvlačenju informacija iz podataka, pogledajte:

Ostali izvori


Spoljašnje veze uredi