Отворени повезани подаци

повезани подаци под отвореном лиценцом
(преусмерено са Linked open data)

Отворени повезани подаци, њихов највидљивији пример усвајања и примене принципа повезаних података су Пројекат Повезаних Јавних Података. Пројекат, основан у јануару 2007. и подржан од стране В3Ц семантичке веб едукације и спољне групе. Оригинални циљ пројекта је да се бутују веб подаци идентификовањем постојећих скупова података који су доступни у оквиру отворене лиценце, претварање ове у РДФ према повезаним начелима података, и објављивање истих на вебу.

Пројекат повезаних јавних података уреди

Учесници у раним фазама пројекта били су првенствено истраживачи и програмери из универзитетске истраживачке лабораторије и мала предузећа. Од тада пројекат је порастао значајно, толико да укључи значајан ангажман великих организација као што је BBC[1], Томсон Ројтерс и Конгресна библиотека. Овај раст је омогућен отвореном природом пројекта, где свако може једноставно учествовати објављивањем сета података према повезаним принципима података и повезивања са постојећим сетовима података. Индикација опсега и обим веб података који потичу из пројекта повезивања Отворених података је приказан на слици.

 

Сваки чвор у овом облаку дијаграма представља посебан скуп података објављених као Повезани подаци. Повезивање отворених података облак дијаграма даје преглед објављених скупова података и њихову међуповезаност. Лукови на слици 1 показују да постоје везе између ставки у два сета повезаних података. Тежи лукови грубо одговарају већи број веза између два сета података, док двосмерни лукови показују спољашње линкове на друге већ постојеће у сваком скупу података. Садржај облака је разнолик у природи и садржи податке о географским локацијама, људи, предузећа, књига (Bizer & Cyganiak & Gauss, 2007), научних радова ((Van de Sompel et al., 2009), филмова (Hassanzadeh & Consens, 2009), музике, телевизије и радио програма, гена, протеина, дрога и клиничка испитивања, онлине заједнице, статистичких података, резултате пописа становништва, и критике.

Израчунавање тачне величине веб података представља изазов због чињенице да се велики део података генерише око омотача постојећих релационих база података или АПИ. Зато прво треба да се попише пре него што се може рачунати или анализирати. Алтернативно, величина веб података може се проценити на основу скупа података статистике који су прикупљени од стране заједнице у ЕСВ вики. Према овим статистикама, веб података тренутно се састоји од 4,7 милијарди РДФ тројки, који су међусобно повезани око 142 милиона РДФ линкова (мај 2009). Како Слика 1 показује, поједини скупови података служе као повезивање чворишта у вебу података. На пример, скуп података састоји се од РДФ тројки вади из „информационих блокова“ што се обично види на десној страни Википедија чланака, док ГеоИмена[2] обезбеђује РДФ описе милиона географских локација широм света. Како ова два скупа података пружају УРИ и РДФ описе за многе уобичајене ентитете или концепте, они су често помињани у другим више специјализованим скуповима података и стога су се развили у чвориштима у којима је све већи број на других скупова података који су повезани.

Објава повезаних података на Интернету уреди

Објављивањем података на веб-у у складу са принципима повезаних података, провајдери додају њихове податке на глобалном простору података, који омогућава да се подаци открију и користе разне апликације. Објављивање податка, постављено као повезани подаци на Вебу укључује следећа три основна корака:

  • Додели УРИ на ентитете који су описани од стране скупа података и обезбедити ове УРИ преко HTTP протокола у РДФ репрезентацијама.
  • Поставите РДФ линкове ка другим изворима података на Веб-у, тако да клијенти могу да се крећу вебом података у целини од следећих линкова РДФ.
  • Обезбедите метаподатке о објављеним подацима, тако да клијенти могу да процене квалитет објављених података и бирају између различитих приступа средствима.

Избор УРИ-ја и РДФ-а речника уреди

Провајдери податке могу да бирају између два УРИ начина коришћења HTTP идентификовати ентитете: 303 УРИ и хасх УРИ. Оба обрасца обезбеђују да клијенти могу да праве разлику између УРИ идентификовања реалног света ентитета и УРИ који идентификују веб докумената који описују ове стварне субјекте. У отвореном окружењу као што је веб, различити даваоци информација објављују податке о истом стварном свету ентитета, на пример географска локација или славна личност. Пошто они не могу да знају једни о другима, они уводе различита УРИ да идентификују исте ентитете. На пример, ГеоИмена користи URI http://svs.geonames.org/2950159/ Берлин. Како се оба УРИ односе на исти ентитет стварног света, они се зову УРИ псеудоними. УРИ псеудоними су уобичајени на веб подацима, као што се не може реално очекивати да се сви даваоци информација слажу о истим УРИ до идентификовању ентитета. УРИ псеудоними такође пружају важну друштвену функцију веб података као што су различити описи истог стварног света ентитета и тиме омогућавају различите погледе и мишљења да се изрази на вебу. Да би даље могли да пратимо да различити даваоци информација говоре о истом ентитету, била је уобичајена пракса да се информације пружају уз одређен опис: исти као линкови до УРИ псеудонимима који су већ познати. Различите заједнице имају посебне преференције на речницима који они више воле да користе за објављивање података на Интернету. Веб подаци је стога створен за произвољне речнике који се могу користи паралелно.

Речници уреди

Упркос овој могућности, сматра се да је добра пракса да се поново користе услови из познатих РДФ речника као што су FOAF, SIOC, SKOS, DOAP, vCard, Dublin Core[3], OAI-ORE- или добро познате релације кад год је то могуће како би биле лакше за клијента апликације за обраду повезаних података. Једино ако ови речници не пружају потребне услове, издавачи података треба да дефинишу нови, извор специфичне терминологије података. Ако је дефинисана нова терминологија, то треба да се самоописује тако што је УРИ који идентификују појмове веб упућивања. Ово омогућава клијентима да преузму РДФ шеме или дефиниције термина, као и термин мапирања другим речницима. Серија формата која је уобичајена за повезане податке је RDF/XML. У ситуацијама где је потребна људска инспекција РДФ података Нотација3[4], често под условом као алтернатива, интерконвертибилних серија, због већег доживљавања читљивости ових формата. Алтернативно, повезани подаци могу такође бити серије РДФа које обезбеђују уграђивање РДФ тројке у HTML. У другом случају, издавачи података треба да користе РДФа као атрибут на додели УРИ до субјекта у циљу да омогући другим провајдерима података да подесе да се РДФ повезује са њима.

Претраживачи отворених података уреди

Баш као традиционални веб претраживачи омогућавају корисницима да се крећу између HTML странице пратећи хиперлинкове, прегледачи отворених података омогућавају корисницима да се крећу између извора података, следећи линкове изражене као РДФ тројке. Разлика између нјихових индекса отворених података некима је невидлјива, али ипак постоји.

Метаподаци уреди

Повезани подаци би требало да буду објављени уз неколико типова метаподатака, у циљу повећања његове корисности за потрошаче података. Да би се омогућило клијентима да процене квалитет објављеног податка и да се утврди да ли они желе да верују у те податке, они би требало да буду праћени мета-информацијама о свом творцу, датуму креирања, као и методи стварања. Основно порекло мета-информације може се обезбедити коришћењем Dublin Core. У циљу подршке клијентима у избору, најефикаснији начин за приступ веб подацима за специфичан задатак који морају да обављају, издавачи података могу да обезбедити додатну техничку метаподатака о њиховом скупу података и њеним односима са другим.

Примери алата за објаву уреди

Примери отворене платформе података уреди

 
Слободно обележавање условима лиценцирања је кључна компонента отворених података, а иконе попут оних на слици овде се користе за ту сврху.

Референце уреди