Skladište podataka

U računarstvu, skladištenje podataka (engl. data warehouse, DW ili DWH), takođe poznatо kao poslovno skladište podataka (engl. enterprise data warehous, EDV), sistem je koji se koristi za izveštavanje i analizu podataka i smatra se sržnom komponentom poslovne inteligencije.^[1] Skladišta podataka su centralna spremišta integrisanih podataka iz jednog ili više različitih izvora. U njima se skladište sadašnji i istorijski podaci na jednom mestu^[2] koji se koriste za izradu analitičkih izveštaja za radnike u celoj kompaniji.^[3]

Podaci pohranjeni u skladištu prenose se iz operacionih sistema (kao što su marketing ili prodaja). Podaci mogu proći kroz operaciono skladište podataka i mogu zahtevati čišćenje podataka^[2] za dodatne operacije kako bi se osigurao kvalitet podataka pre upotrebe u skladišta podataka za izveštavanje.

Tipično skladište podataka zasnovano na ekstrakciji, transformaciji, unosu (engl. extract, transform, load, ETL)^[4] koristi postavljanje, integraciju podataka i pristupanje slojevima kako bi se omogućile ključne funkcije. Pripremni sloj ili scenarijsko skladište baze podataka sadrži sirove podatke izvađene iz svakog od različitih izvora podataka datog sistema. Integracioni sloj integriše različite skupove podataka transformišući podatke iz scenarijskog sloja, često čuvajući ove transformisane podatke u operacionom skladištu podataka (engl. operational data store, ODS). Integrisani podaci se zatim premeštaju u drugu bazu podataka, koja se često naziva i baza podataka skladišta podataka, gde su podaci raspoređeni u hijerarhijske grupe, često zvane dimenzijama, u činjenice i agregirane činjenice. Kombinacija činjenica i dimenzija ponekad se naziva shema zvezde. Pristupni sloj pomaže korisnicima da preuzmu podatke.^[5]

Glavni izvor podataka se čisti, transformiše, kataloguje i stavlja na raspolaganje za upotrebu menadžerima i drugim poslovnim korisnicima za istraživanje podataka, onlajn analitičku obradu, istraživanje tržišta i podršku pri odlučivanju.^[6] Međutim, sredstva za prikupljanje i analiziranje podataka, izdvajanje, pretvaranje i učitavanje podataka i upravljanje rečnikom podataka takođe se smatraju bitnim komponentama sistema skladištenja podataka. Mnoge reference o skladištenju podataka koriste ovaj širi kontekst. Stoga, proširena definicija skladištenja podataka obuhvata alate poslovne inteligencije, alate za izdvajanje, pretvaranje i učitavanje podataka u skladište i alate za upravljanje i preuzimanje metapodataka.

Skladište podataka zasnovano na ETL-u

Tipično skladište podataka zasnovano na izdvajanju, transformisanju, učitavanju (engl. extract, transform, load - ETL)^[4] koristi slojeve za postavljanje, integraciju podataka i pristup za pružanje svih ključnih funkcija. Sloj za pripremu ili scenska baza podataka čuva neobrađene podatke ekstrahovane iz svakog od različitih sistema izvora podataka. Integracioni sloj integriše različite skupove podataka transformišući podatke iz sloja za postavljanje često čuvajući ove transformisane podatke u bazi podataka operativnog skladišta podataka (ODS).^[7] Integrisani podaci se zatim premeštaju u još jednu bazu podataka, koja se često naziva baza podataka skladišta podataka, gde su podaci raspoređeni u hijerarhijske grupe, koje se često nazivaju dimenzijama, i u činjenice i zbirne činjenice. Kombinacija činjenica i dimenzija se ponekad naziva zvezdana šema. Pristupni sloj pomaže korisnicima da preuzmu podatke.^[5]

Istorija

Koncept skladištenja podataka datira iz kasnih 1980-ih^[8] kada su IBM istraživači Bari Devlin i Pol Marfi razvili „skladište poslovnih podataka”. U suštini, koncept skladištenja podataka imao je za cilj da obezbedi arhitektonski model protoka podataka iz operacionih sistema u okruženja za podršku odlučivanja. Koncept je pokušao da reši različite probleme povezane sa ovim tokom, uglavnom velike troškove koji su s tim povezani. U odsustvu arhitekture skladištenja podataka, potrebna je ogromna količina izlišnosti da bi se podržala višestruka okruženja za podršku odlučivanja. U većim korporacijama bilo je tipično da višestruka okruženja za podršku odlučivanja deluju nezavisno. Iako je svako okruženje služilo različitim korisnicima, oni su često zahtevali u znatnoj meri iste pohranjene podatake. Proces prikupljanja, čišćenja i integrisanja podataka iz različitih izvora, obično iz dugoročnih postojećih operacionih sistema (koji se obično nazivaju nasleđenim sistemima), tipično je delom bio replikovan za svako okruženje. Štaviše, operacioni sistemi su često preispitani, jer bi se pojavili novi zahtevi za podršku odlučivanja. Često su novi zahtevi uslovljavali prikupljanje, čišćenje i integrisanje novih podataka iz „martova podataka” koji su bili prilagođeni za neposredan pristup korisnika.

Ključni događaji u ranim godinama skladištenja podataka:

1960-te – Dženeral Mils i Dartmutski koledž su u okviru zajedničkog istraživačkog projekta razvili termine dimenzije i činjenice.^[9]
1970-te – Nilsen korporacija i IRI pružaju dimenzione data martove za maloprodaju.^[9]
1970-te – Bil Inmon počinje da definiše i diskutuje termin skladište podataka.
1975 – UNIVAC uvodi MAPPER (engl. MAintain, Prepare, and Produce Executive Reports) kao sistem za upravljanje bazama podataka i izveštavanje koji uključuje prvi 4GL na svetu. To je prva platforma dizajnirana za izgradnju informacionih centara (preteča savremene tehnologije skladišta podataka).
1983 – Teradata uvdi DBC/1012 računarsku bazu podataka specifično dizajniranu za podršku odlučivanja.^[10]
1984 – Metafor računarski sistemi, koje su osnovali Dejvid Lidl i Don Masaro, plasira na tržište hardvarski/softvarski paket i GUI za poslovne korisnike za kreiranje sistema za upravljanje bazama podataka i analitičku obradu.
1985 - Speri korporacija objavljuje članak (Martin Džons i Filip Njuman) o informacionim centrima, u kome oni uvode termin MAPPER skladišta podataka u kontekstu informacionih centera.
1988 – Bari Devlin i Pol Marfi objavljuju članak „Arhitektura poslovnog i informacionog sistema” (engl. An architecture for a business and information system), u kome oni uvode termin „poslovnog skladišta podataka”.^[11]
1990 – Red Brik Sistemi, preduzeće koje je osnovao Ralf Kimbal, uvodi Red Brik skladište podataka, sistem za upravljanje bazama podataka specifično dizajniran za skladištenje podataka.
1991 – Prism Solutions, preduzeće koje je osnovao Bil Inmon, uvodi Prism menadžer skladišta podataka, softvar za razvoj skladišta podataka.
1992 – Bil Inmon objavljuje knjigu „Izgradnja skladišta podataka” (engl. Building the Data Warehouse).^[12]
1995 – Institut za skladišta podataka, bezprofitna organizacija koja promoviše skladišta podataka, je osnovana.
1996 – Ralf Kimbal objavljuje knjigu „Alat za skladištenje podataka” (engl. The Data Warehouse Toolkit).^[13]
2000 – Dan Linstedt objavljuje u javnom domenu modelovanje trezora podataka zamišljeno 1990. godine kao alternativa Inmonu i Kimbalu za obezbešivanje dugoročnog istorijskog skladištenja podataka koji dolaze iz više operacionih sistema, sa naglaskom na praćenju, reviziji i otpornosti na promene modela izvornih podataka.
2012 – Bil Inmon razvija i čini javnom tehnologiju poznatom kao „tekstualna nedvosmislenost”. Tekstualna nedvosmislenost primenjuje kontekst na neobrađeni tekst i preobličava neobrađeni tekst i kontekst u standardni format baze podataka. Jednom kada neobrađeni tekst prođe kroz tekstualno višeznačje, njemu se lako i efikasno može pristupiti i on se može analizirati standardnom tehnologijom poslovne inteligencije. Tekstualno razvrstavanje se ostvaruje primenom tekstualnog ETL-a. Tekstualna nedvosmislenost je koristna gde god se nailazi na neobrađeni tekst, kao što su dokumenti, Hadup, e-pošta i tako dalje.

Reference

^ Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José, ур. An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016). 1. SciTePress. стр. 196—206. ISBN 978-989-758-187-8. doi:10.5220/0005858401960206.
^ ^а ^б „9 Reasons Data Warehouse Projects Fail”. blog.rjmetrics.com. Приступљено 30. 4. 2017.
^ „Exploring Data Warehouses and Data Quality”. spotlessdata.com. Архивирано из оригинала 26. 07. 2018. г. Приступљено 30. 4. 2017.
^ ^а ^б „What is Big Data?”. spotlessdata.com. Архивирано из оригинала 17. 02. 2017. г. Приступљено 30. 4. 2017.
^ ^а ^б Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). „Optimization of Data Warehousing System: Simplification in Reporting and Analysis”. IJCA Proceedings on International Conference and workshop on Emerging Trends in Technology (ICWET). Foundation of Computer Science. 9 (6): 33—37.
^ Marakas & O'Brien 2009
^ Inmon, William (1999). Building the Operational Data Store (2nd изд.). New York: John Wiley & Sons. ISBN 0-471-32888-X.
^ „The Story So Far”. 15. 4. 2002. Архивирано из оригинала 8. 7. 2008. г. Приступљено 21. 9. 2008.
^ ^а ^б Kimball 2002, стр. 16
^ Paul Gillin (20. 2. 1984). „Will Teradata revive a market?”. Computer World. стр. 43, 48. Приступљено 13. 3. 2017.
^ „An architecture for a business and information system”. IBM Systems Journal. 27: 60—80. doi:10.1147/sj.271.0060.
^ Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0-471-56960-7.
^ Kimball, Ralph (2011). The Data Warehouse Toolkit. Wiley. стр. 237. ISBN 978-0-470-14977-5.

Literatura

Davenport, Thomas H. and Harris, Jeanne G. Competing on Analytics: The New Science of Winning (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6
Ganczarski, Joe. Data Warehouse Implementations: Critical Implementation Factors Study (2009) VDM Verlag ISBN 978-3-639-18589-8
Kimball, Ralph and Ross, Margy. The Data Warehouse Toolkit Third Edition (2013) Wiley, ISBN 978-1-118-53080-1
Linstedt, Graziano, Hultgren. The Business of Data Vault Modeling Second Edition (2010) Dan linstedt, ISBN 978-1-4357-1914-9
William Inmon. Building the Data Warehouse (2005) John Wiley and Sons, ISBN 978-81-265-0645-3
Ralph., Kimball (2004). The data warehouse ETL toolkit : practical techniques for extracting, cleaning, conforming, and delivering data. Caserta, Joe, 1965-. Indianapolis, IN: Wiley. ISBN 978-0764579233. OCLC 57301227.
Denney, MJ (2016). „Validating the extract, transform, load process used to populate a large clinical research database”. International Journal of Medical Informatics. 94: 271—4. PMC 5556907  . PMID 27506144. doi:10.1016/j.ijmedinf.2016.07.009.
Zhao, Shirley (2017-10-20). „What is ETL? (Extract, Transform, Load) | Experian”. Experian Data Quality (на језику: енглески). Приступљено 2018-12-12.
Pott, Trevor (4. 6. 2018). „Extract, transform, load? More like extremely tough to load, amirite?”. The Register (на језику: енглески). Приступљено 2018-12-12.
Theodorou, Vasileios (2017). „Frequent patterns in ETL workflows: An empirical approach”. Data & Knowledge Engineering. 112: 1—16. doi:10.1016/j.datak.2017.08.004. hdl:2117/110172  .
Bandara, H. M. N. Dilum; Xu, Xiwei; Weber, Ingo (2020). „Patterns for Blockchain Data Migration”. Proceedings of the European Conference on Pattern Languages of Programs 2020. стр. 1—19. ISBN 9781450377690. S2CID 219956181. arXiv:1906.00239  . doi:10.1145/3424771.3424796.

Spoljašnje veze

„Data Integration Info”. Data Integration Info.
„The Inexorable Rise of Self Service Data Integration”. Gartner. 22. 5. 2015. Приступљено 31. 1. 2016.
„Embrace the Citizen Integrator”. Gartner. Архивирано из оригинала 03. 01. 2018. г. Приступљено 29. 9. 2021.
Bill Inmon Information Management article on the five classes of ODS Архивирано на сајту Wayback Machine (7. април 2016)
Claudia Imhoff. „Information Management article on ODS” (PDF). Архивирано из оригинала (PDF) 2016-03-04. г.

[1] Dedić, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José, ур. An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016). 1. SciTePress. стр. 196—206. ISBN 978-989-758-187-8. doi:10.5220/0005858401960206.

[rjmetrics-2] а ^б „9 Reasons Data Warehouse Projects Fail”. blog.rjmetrics.com. Приступљено 30. 4. 2017.

[spotlessdata-3] „Exploring Data Warehouses and Data Quality”. spotlessdata.com. Архивирано из оригинала 26. 07. 2018. г. Приступљено 30. 4. 2017.

[spotlessdata2-4] а ^б „What is Big Data?”. spotlessdata.com. Архивирано из оригинала 17. 02. 2017. г. Приступљено 30. 4. 2017.

[IJCA96Patil-5] а ^б Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). „Optimization of Data Warehousing System: Simplification in Reporting and Analysis”. IJCA Proceedings on International Conference and workshop on Emerging Trends in Technology (ICWET). Foundation of Computer Science. 9 (6): 33—37.

[6] Marakas & O'Brien 2009

[7] Inmon, William (1999). Building the Operational Data Store (2nd изд.). New York: John Wiley & Sons. ISBN 0-471-32888-X.

[8] „The Story So Far”. 15. 4. 2002. Архивирано из оригинала 8. 7. 2008. г. Приступљено 21. 9. 2008.

[kimball16-9] а ^б Kimball 2002, стр. 16

[10] Paul Gillin (20. 2. 1984). „Will Teradata revive a market?”. Computer World. стр. 43, 48. Приступљено 13. 3. 2017.

[11] „An architecture for a business and information system”. IBM Systems Journal. 27: 60—80. doi:10.1147/sj.271.0060.

[12] Inmon, Bill (1992). Building the Data Warehouse. Wiley. ISBN 0-471-56960-7.

[:0-13] Kimball, Ralph (2011). The Data Warehouse Toolkit. Wiley. стр. 237. ISBN 978-0-470-14977-5.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]