Sekvencijalna analiza podataka

Sekvencijalno pretraživanje je tema analize podataka usmerena ka pronalaženju statistički relevantnih obrazaca između primera podataka gde su podaci dostavljeni u sekvenci.^[1] Obično se pretpostavlja da su vrednosti diskretne, tako da analiza vremenskih serija (engl. time series) tesno povezana, ali obično smatrana za drugčiju aktivnost. Sekvencijalno pretraživanje je specijalan vid strukturne analize podataka. Postoje nekoliko ključnih tradicionalnih računarskih problema vezana za ovo polje. Ona uključuju izradu efikasnih baza podataka i indeksa za sekvence informacija, izdvajanje obrazaca koji se često izvršavaju, poređenje sličnosti sekvenci, i povratiti nedostajale članove sekvenci. Generalno, problemi sekvencijalne analize se mogu svrstati kao analiziranje niski koje je obično zasnovano na algoritmima za obradu niski i analizu kolekcije stavki koja je obično zasnovana na asocijativnom učenju po pravilima.

Analiza niski uredi

Analiza niski se obično bavi ograničenim alfabetom za objekte koji se pojavljuju u nizu, ali sam niz obično može biti veoma dugačak. Primeri alfabeta mogu biti u ASCII setu znakova koji se koriste u prirodnim jezičkim tekstovima, nukleotida baze „A“,“G“, „C“ i „T“ DNK nizu ili amino-kiseline u proteinskim nizovima. U biologiji aplikacione analize rasporeda alfabeta u niskama mogu se koristiti da ispitaju genetske i proteinske nizove kako bi im se odredile osobine. Poznavanje niza slova DNK proteina nije konačan cilj sam po sebi. Umesto toga, glavni zadatak je razumeti niz, u smislu strukture i biološke funkcije. Ovo se obično postiže najpre identifikacijom pojedinačne regione ili strukturne jedinice svakog niza i zatim dodeljivanjem funkcije svakoj strukturnoj jedinici. U mnogim slučajevima ovo zahteva upoređivanje datog niza sa prethodno proučavanim nizovima. Upoređivanje niski postaje komplikovanije kada se ubacivanje, brisanje i mutacija pojave u niski.

Istraživanje i klasifikacija ključnih algoritama za poređenje nizova za bioinformatiku je predstavljeno od strane Abuelhoda i Ganema(2010), koje uključuje:^[2]

Problem ponavljanja: koji se bavi operacijama na jednom nizu i može biti zasnovan na metodama za tačno podudaranje niski ili za približno podudaranje niski za pronalaženje disperzione fiksne dužine i maksimalne dužine ponavljanja, pronalaženje tandem ponavljanja i pronalaženje jedinstvenog podniza i (nenapisanih) nizova koji nedostaju.
Problem poravnanja: koji se bavi upoređivanjem niski, time što se prvo poravaju jedna ili više nizova; primeri popularnih metoda uključuju BLAST za upoređivanje pojedinačnog niza sa više nizova u bazi podataka, i ClustalW za višestruka poravnanja. Algoritmi ponavljanja mogu biti zasnovani na bilo metodama tačnog ili približnog poravnanja, i mogu takođe biti klasifikovane kao globalna poravnanja, polu-globalna i lokalna poravnanja. Vidi poravnanje nizova.

Analiza kolekcije stavki uredi

Neke probleme u sekvencijalnoj analizi otkrivaju česte kolekcije stvaki i red u kome se javljaju, na primer, neko traži pravila forme "ako {mušterija kupu kola}, on ili ona će verovatno {kupiti osiguranje} u roku od nedelju dana", ili u kontekstu cena berze, " Ako ce {Nokija i Erikson unaprede}, veoma je verovatno da će se {Motorola i Samsung unaprediti} u roku od 2 dana“. Tradicionalno, analiza kolekcije stavki se koristi u trgovinskim aplikacijama za otkrivanje pravilnosti između učestalih istovremenih izvrašavanja stavki u velikim transakcijama. Na primer, analiziranjem transakcija ili mušterijine korpe za kupovinu u prodavnici, može se izvesti pravilo koje kaže "ako mušterija kupi crni luk i krompir zajedno, on ili ona će verovatno kupiti meso za pljeskavice u istoj kupovini.

Istraživanje ključnih algoritama za kolekcije stavki je predstavljeno od strane "Han et al." (2007).^[3]

Dve česte tehnike koje se primenjuju sekvencama baza podataka za učestalu analizu kolekcija stavki su uticajni "apriori" algoritmi i skorija {jez-eng|FP-Growth}} tehnika.

Varijante uredi

Tradicionalna sekvencijalna analiza obrazaca je uređena uključujući i neka ograničenja i neko ponašanje. Džordž i Binu (2012) su integrisali tri značajna marketinška scenarija za analizu promotivno-orijentisanih sekvencijalnih obrazaca.^[4] Promotivno zasnovani tržišni scenariji u svom istraživanju uzimaju u obzir 1) Pad proizvoda, 2) Reviziju proizvoda i 3) Puštanje u promet proizvoda engl. DRL(Downturn-Revision-Launch). Razmatranjem ovoga, oni su razvili engl. DRL-Prefix Span algoritam (izrađen od Prefix Span) za analiziranje DRL obrazaca svih dužina.

Aplikakacije uredi

Sa velikim varijacijama proizvoda i odlika kupaca, polica na kojoj je proizvod postavljen je jedna od najvažnijih stvari u trgovinskom okruženju. Trgovci ne samo da mogu da povećaju sopstven dobit nego, takođe mogu da snize cenu se pravilnim upravljanjem obezbeđenog prostora na policama i izlaganjem proizvoda. Da bi rešio ovaj problem, Džordž i Binu (2013) su predložili pristup da analiziraju korisničke obrasce kupovine koristeći engl. PrefixSpan algoritme i smeštaju proizvode na police u odnosu na analizu obrazaca kupovine.^[5]

Algoritmi uredi

Commonly used algorithms include:

Pogledajte uredi

Association rule learning
Analiza podataka
Process mining
Sekvencijalna analiza DNK (Bioinformatika)
Sequence clustering
Sequence labeling
niska (računarstvo i informatika)
Sequence alignment
Time series

Reference uredi

^ Mabroukeh, Nizar R.; Ezeife, C. I. (2010). „A taxonomy of sequential pattern mining algorithms”. ACM Computing Surveys. 43: 1—41. S2CID 207180619. doi:10.1145/1824795.1824798.
^ Abouelhoda, M.; Ghanem, M. (2010). „String Mining in Bioinformatics”. Ur.: Gaber, M. M. Scientific Data Mining and Knowledge Discovery. Springer. ISBN 978-3-642-02787-1. doi:10.1007/978-3-642-02788-8_9.
^ Han, J.; Cheng, H.; Xin, D.; Yan, X. (2007). „Frequent pattern mining: current status and future directions”. Data Mining and Knowledge Discovery. 15 (1): 55—86. S2CID 8085527. doi:10.1007/s10618-006-0059-1.
^ George, Aloysius; Binu, D. (2012). „DRL-PREFIXSPAN A Novel Pattern Growth Algorithm for Discovering Downturn, Revision and Launch (DRL) Sequential Patterns”. Central European Journal of Computer Science. 2 (4): 426—439. S2CID 6351139. doi:10.2478/s13537-012-0030-8.
^ George, A.; Binu, D. (2013). „An Approach to Products Placement in Supermarkets Using PrefixSpan Algorithm”. Journal of King Saud University-Computer and Information Sciences. 25 (1): 77—87. doi:10.1016/j.jksuci.2012.07.001.
^ Ahmad, Ishtiaq; Qazi, Wajahat M.; Khurshid, Ahmed; Ahmad, Munir; Hoessli, Daniel C.; Khawaja, Iffat; Choudhary, M. Iqbal; Shakoori, Abdul R.; Nasir-ud-Din (1. 5. 2008). „MAPRes: Mining association patterns among preferred amino acid residues in the vicinity of amino acids targeted for post-translational modifications”. Proteomics. 8 (10): 1954—1958. PMID 18491291. S2CID 22362167. doi:10.1002/pmic.200700657.

Literatura uredi

Abouelhoda, M.; Ghanem, M. (2010). „String Mining in Bioinformatics”. Ur.: Gaber, M. M. Scientific Data Mining and Knowledge Discovery. Springer. ISBN 978-3-642-02787-1. doi:10.1007/978-3-642-02788-8_9.

Spoljašnje veze uredi

Implementacija

SPMF, besplatna platforma otvorenog koda za analiziranje podataka, napisana u Javi, pruža više od 45 algoritama za sekvencijalno analiziranje obrazaca, sekvencijalno analiziranje po pravilima, analiziranje kolekcija stavki i asocijativno analiziranje po pravilima.

[1] Mabroukeh, Nizar R.; Ezeife, C. I. (2010). „A taxonomy of sequential pattern mining algorithms”. ACM Computing Surveys. 43: 1—41. S2CID 207180619. doi:10.1145/1824795.1824798.

[2] Abouelhoda, M.; Ghanem, M. (2010). „String Mining in Bioinformatics”. Ur.: Gaber, M. M. Scientific Data Mining and Knowledge Discovery. Springer. ISBN 978-3-642-02787-1. doi:10.1007/978-3-642-02788-8_9.

[3] Han, J.; Cheng, H.; Xin, D.; Yan, X. (2007). „Frequent pattern mining: current status and future directions”. Data Mining and Knowledge Discovery. 15 (1): 55—86. S2CID 8085527. doi:10.1007/s10618-006-0059-1.

[4] George, Aloysius; Binu, D. (2012). „DRL-PREFIXSPAN A Novel Pattern Growth Algorithm for Discovering Downturn, Revision and Launch (DRL) Sequential Patterns”. Central European Journal of Computer Science. 2 (4): 426—439. S2CID 6351139. doi:10.2478/s13537-012-0030-8.

[5] George, A.; Binu, D. (2013). „An Approach to Products Placement in Supermarkets Using PrefixSpan Algorithm”. Journal of King Saud University-Computer and Information Sciences. 25 (1): 77—87. doi:10.1016/j.jksuci.2012.07.001.

[6] Ahmad, Ishtiaq; Qazi, Wajahat M.; Khurshid, Ahmed; Ahmad, Munir; Hoessli, Daniel C.; Khawaja, Iffat; Choudhary, M. Iqbal; Shakoori, Abdul R.; Nasir-ud-Din (1. 5. 2008). „MAPRes: Mining association patterns among preferred amino acid residues in the vicinity of amino acids targeted for post-translational modifications”. Proteomics. 8 (10): 1954—1958. PMID 18491291. S2CID 22362167. doi:10.1002/pmic.200700657.

[1]

[2]

[3]

[4]

[5]

[6]