Складиште података

У рачунарству, складиштење података (енгл. data warehouse, DW или DWH), такође познато као пословно складиште података (енгл. enterprise data warehous, ЕДВ), систем је који се користи за извештавање и анализу података и сматра се сржном компонентом пословне интелигенције.[1] Складишта података су централна спремишта интегрисаних података из једног или више различитих извора. У њима се складиште садашњи и историјски подаци на једном месту[2] који се користе за израду аналитичких извештаја за раднике у целој компанији.[3]

Преглед складишта података
Основна архитектура складишта података

Подаци похрањени у складишту преносе се из операционих система (као што су маркетинг или продаја). Подаци могу проћи кроз операционо складиште података и могу захтевати чишћење података[2] за додатне операције како би се осигурао квалитет података пре употребе у складишта података за извештавање.

Типично складиште података засновано на екстракцији, трансформацији, уносу (енгл. extract, transform, load, ЕТЛ)[4] користи постављање, интеграцију података и приступање слојевима како би се омогућиле кључне функције. Припремни слој или сценаријско складиште базе података садржи сирове податке извађене из сваког од различитих извора података датог система. Интеграциони слој интегрише различите скупове података трансформишући податке из сценаријског слоја, често чувајући ове трансформисане податке у операционом складишту података (енгл. operational data store, ОДС). Интегрисани подаци се затим премештају у другу базу података, која се често назива и база података складишта података, где су подаци распоређени у хијерархијске групе, често зване димензијама, у чињенице и агрегиране чињенице. Комбинација чињеница и димензија понекад се назива схема звезде. Приступни слој помаже корисницима да преузму податке.[5]

Главни извор података се чисти, трансформише, каталогује и ставља на располагање за употребу менаџерима и другим пословним корисницима за истраживање података, онлајн аналитичку обраду, истраживање тржишта и подршку при одлучивању.[6] Међутим, средства за прикупљање и анализирање података, издвајање, претварање и учитавање података и управљање речником података такође се сматрају битним компонентама система складиштења података. Многе референце о складиштењу података користе овај шири контекст. Стога, проширена дефиниција складиштења података обухвата алате пословне интелигенције, алате за издвајање, претварање и учитавање података у складиште и алате за управљање и преузимање метаподатака.

Складиште података засновано на ЕТЛ-у уреди

Типично складиште података засновано на издвајању, трансформисању, учитавању (енгл. extract, transform, load - ETL)[4] користи слојеве за постављање, интеграцију података и приступ за пружање свих кључних функција. Слој за припрему или сценска база података чува необрађене податке екстраховане из сваког од различитих система извора података. Интеграциони слој интегрише различите скупове података трансформишући податке из слоја за постављање често чувајући ове трансформисане податке у бази података оперативног складишта података (ОДС).[7] Интегрисани подаци се затим премештају у још једну базу података, која се често назива база података складишта података, где су подаци распоређени у хијерархијске групе, које се често називају димензијама, и у чињенице и збирне чињенице. Комбинација чињеница и димензија се понекад назива звездана шема. Приступни слој помаже корисницима да преузму податке.[5]

Историја уреди

Концепт складиштења података датира из касних 1980-их[8] када су ИБМ истраживачи Бари Девлин и Пол Марфи развили „складиште пословних података”. У суштини, концепт складиштења података имао је за циљ да обезбеди архитектонски модел протока података из операционих система у окружења за подршку одлучивања. Концепт је покушао да реши различите проблеме повезане са овим током, углавном велике трошкове који су с тим повезани. У одсуству архитектуре складиштења података, потребна је огромна количина излишности да би се подржала вишеструка окружења за подршку одлучивања. У већим корпорацијама било је типично да вишеструка окружења за подршку одлучивања делују независно. Иако је свако окружење служило различитим корисницима, они су често захтевали у знатној мери исте похрањене податаке. Процес прикупљања, чишћења и интегрисања података из различитих извора, обично из дугорочних постојећих операционих система (који се обично називају наслеђеним системима), типично је делом био репликован за свако окружење. Штавише, операциони системи су често преиспитани, јер би се појавили нови захтеви за подршку одлучивања. Често су нови захтеви условљавали прикупљање, чишћење и интегрисање нових података из „мартова података” који су били прилагођени за непосредан приступ корисника.

Кључни догађаји у раним годинама складиштења података:

  • 1960-те – Џенерал Милс и Дартмутски колеџ су у оквиру заједничког истраживачког пројекта развили термине димензије и чињенице.[9]
  • 1970-те – Нилсен корпорација и ИРИ пружају димензионе дата мартове за малопродају.[9]
  • 1970-те – Бил Инмон почиње да дефинише и дискутује термин складиште података.
  • 1975 – УНИВАЦ уводи МАППЕР (енгл. MAintain, Prepare, and Produce Executive Reports) као систем за управљање базама података и извештавање који укључује први 4ГЛ на свету. То је прва платформа дизајнирана за изградњу информационих центара (претеча савремене технологије складишта података).
  • 1983 – Teradata увди DBC/1012 рачунарску базу података специфично дизајнирану за подршку одлучивања.[10]
  • 1984 – Метафор рачунарски системи, које су основали Дејвид Лидл и Дон Масаро, пласира на тржиште хардварски/софтварски пакет и ГУИ за пословне кориснике за креирање система за управљање базама података и аналитичку обраду.
  • 1985 - Спери корпорација објављује чланак (Мартин Џонс и Филип Њуман) о информационим центрима, у коме они уводе термин МАППЕР складишта података у контексту информационих центера.
  • 1988 – Бари Девлин и Пол Марфи објављују чланак „Архитектура пословног и информационог система” (енгл. An architecture for a business and information system), у коме они уводе термин „пословног складишта података”.[11]
  • 1990 – Ред Брик Системи, предузеће које је основао Ралф Кимбал, уводи Ред Брик складиште података, систем за управљање базама података специфично дизајниран за складиштење података.
  • 1991 – Prism Solutions, предузеће које је основао Бил Инмон, уводи Присм менаџер складишта података, софтвар за развој складишта података.
  • 1992 – Бил Инмон објављује књигу „Изградња складишта података” (енгл. Building the Data Warehouse).[12]
  • 1995 – Институт за складишта података, безпрофитна организација која промовише складишта података, је основана.
  • 1996 – Ралф Кимбал објављује књигу „Алат за складиштење података” (енгл. The Data Warehouse Toolkit).[13]
  • 2000 – Дан Линстедт објављује у јавном домену моделовање трезора података замишљено 1990. године као алтернатива Инмону и Кимбалу за обезбешивање дугорочног историјског складиштења података који долазе из више операционих система, са нагласком на праћењу, ревизији и отпорности на промене модела изворних података.
  • 2012 – Бил Инмон развија и чини јавном технологију познатом као „текстуална недвосмисленост”. Текстуална недвосмисленост примењује контекст на необрађени текст и преобличава необрађени текст и контекст у стандардни формат базе података. Једном када необрађени текст прође кроз текстуално вишезначје, њему се лако и ефикасно може приступити и он се може анализирати стандардном технологијом пословне интелигенције. Текстуално разврставање се остварује применом текстуалног ЕТЛ-а. Текстуална недвосмисленост је користна где год се наилази на необрађени текст, као што су документи, Хадуп, е-пошта и тако даље.

Референце уреди

  1. ^ Дедић, Недим; Станиер, Цларе (2016). Хаммоуди, Слимане; Мациасзек, Лесзек; Миссикофф, Мицхеле M. Миссикофф; Цамп, Оливиер; Цордеиро, Јосé, ур. Ан Евалуатион оф тхе Цхалленгес оф Мултилингуалисм ин Дата Wарехоусе Девелопмент. Интернатионал Цонференце он Ентерприсе Информатион Сyстемс, 25–28 Април 2016, Роме, Италy (ПДФ). Процеедингс оф тхе 18тх Интернатионал Цонференце он Ентерприсе Информатион Сyстемс (ИЦЕИС 2016). 1. СциТеПресс. стр. 196—206. ИСБН 978-989-758-187-8. дои:10.5220/0005858401960206. 
  2. ^ а б „9 Реасонс Дата Wарехоусе Пројецтс Фаил”. блог.рјметрицс.цом. Приступљено 30. 4. 2017. 
  3. ^ „Еxплоринг Дата Wарехоусес анд Дата Qуалитy”. спотлессдата.цом. Архивирано из оригинала 26. 07. 2018. г. Приступљено 30. 4. 2017. 
  4. ^ а б „Wхат ис Биг Дата?”. спотлессдата.цом. Архивирано из оригинала 17. 02. 2017. г. Приступљено 30. 4. 2017. 
  5. ^ а б Патил, Преети С.; Срикантха Рао; Сурyакант Б. Патил (2011). „Оптимизатион оф Дата Wарехоусинг Сyстем: Симплифицатион ин Репортинг анд Аналyсис”. ИЈЦА Процеедингс он Интернатионал Цонференце анд wорксхоп он Емергинг Трендс ин Тецхнологy (ИЦWЕТ). Фоундатион оф Цомпутер Сциенце. 9 (6): 33—37. 
  6. ^ Маракас & О'Бриен 2009
  7. ^ Инмон, Wиллиам (1999). Буилдинг тхе Оператионал Дата Сторе (2нд изд.). Неw Yорк: Јохн Wилеy & Сонс. ИСБН 0-471-32888-X. 
  8. ^ „Тхе Сторy Со Фар”. 15. 4. 2002. Архивирано из оригинала 8. 7. 2008. г. Приступљено 21. 9. 2008. 
  9. ^ а б Кимбалл 2002, стр. 16
  10. ^ Паул Гиллин (20. 2. 1984). „Wилл Терадата ревиве а маркет?”. Цомпутер Wорлд. стр. 43, 48. Приступљено 13. 3. 2017. 
  11. ^ „Ан арцхитецтуре фор а бусинесс анд информатион сyстем”. ИБМ Сyстемс Јоурнал. 27: 60—80. дои:10.1147/сј.271.0060. 
  12. ^ Инмон, Билл (1992). Буилдинг тхе Дата Wарехоусе. Wилеy. ИСБН 0-471-56960-7. 
  13. ^ Кимбалл, Ралпх (2011). Тхе Дата Wарехоусе Тоолкит. Wилеy. стр. 237. ИСБН 978-0-470-14977-5. 

Литература уреди

Спољашње везе уреди