Web Data Commons projekat izdvaja strukturirane podatke iz zajedničke Baze. Najveći deo veb sadržaja dostupan je javnosti, a pruža izdvojene podatke za javno preuzimanje u cilju podrške naučnih istraživanja i kompanija. Time se koristi bogatstvo informacija koje su dostupne na internetu.

Web data commons

Sve više i više sajtova je počelo da ugrađuje strukturirane podatke koji opisuju proizvode, ljude, organizacije, mesta i događaje u svoje HTML stranice. Web Data Commons projekat izdvaja ove podatke iz nekoliko milijardi veb stranica. Do sada projekat ima tri različita seta podataka preuzetih iz Zajedničke baze 2013, 2012. i 2010. god. Projekat pruža izdvojene podatke za preuzimanje i objavljuje statističke podatke o raspoređivanju različitih formata.

Veb Tabele

uredi

Većina ovih tabela se koristi u svrhe rasporeda, ali deo tabela su takođe kvazi-relacione, što znači da one sadrže strukturirane podatke koji opisuju skup entiteta, a time su korisni u situacijama kao što su aplikacije za pretragu podataka. Veb tabele imaju skup podataka od 147 miliona veb relacionih tabela koje su sadržane u ukupnom setu od 11 milijardi HTML tabela koje se nalaze u Zajedničkoj Bazi. Da bi se dobio prvi utisak o temama tabela, primenili smo jednostavan heuristik za identifikaciju zaglavlja kolona svake Veb tabele. Naša heuristika pretpostavka je da su zaglavlja kolona u prvom redu veb tabele koja sadrži najmanje 80% ne-prazne ćelije. Sa trenutnim pristupom podacima možemo da identifikujemo ukupno 509.351.189 zaglavlja kolona od kojih 28.072.596 su različiti. Da biste dobili početni uvid entitetske pokrivenosti korpusa, uveli smo nalepnice kolona tabele pomoću jednostavnog heuristika i broje vrednosti u koloni svih Veb tabela. Početne studije po Cafarella su pokazali da je od 14 milijardi HTML tabela u Google bazi, 154 miliona tabele sadržani relacione podatke. Autori daju fino-naučnu klasifikaciju različitih vrsta HTML tabela koje se nalaze na Vebu na osnovu Bing veb popisivanja.

Grafikon Hiperveze

uredi

Nudimo veliki grafikon hiperveze koji smo izdvojili iz Zajedničke Baze 2012. Grafikon može da pomogne istraživačima da poboljša pretragu algoritma, razvija spam metode otkrivanja i procenu grafičkih algoritama za analizu. Prema saznanjima, graf je najveća hiperveza grafikona koji je dostupan javnosti. Web Data Commons hiperlink grafikon se ekstraktuje iz najnovije verzije zajedničke Baze, koju je okupio u prvoj polovini 2012. Iz ovog korpusa, vadimo sve HTML stranice i svaka hiperveza okrenuta na drugo popisivanje. Za svako preusmjeravanje, uključujemo dodatne čvorove u grafikonu koji se povezuje na dodatnom mestu.

Nadamo se da će grafikon biti korisan za istraživače koji razvijaju: Algoritme koji rangiraju rezultate zasnovane na hipervezama između stranica. Metode detekcije spama identiteta mreže veb stranica koje su objavljene u cilju da prevare pretraživača. Istraživači koji žele da analiziraju povezane obrasce u okviru posebnih tematskih oblasti, kako bi se utvrdili društveni mehanizmi koji regulišu ove domene.

Licenca

uredi

Ekstraktovanje podatka, obezbeđuje podatke prema istim uslovima korišćenja, odricanje od garancije i ograničenja obaveza koje se odnose na Zajedničku Bazu. Web Data Commons ekstrakcija framework-a okvir može da se koristi pod uslovima iz Apache Software License. Apache Software License označava uslove za korišćenje, reprodukcija i distribucija kao što je definisano u članovima ovog dokumenta. Davalac licence označava vlasnik autorskih prava ili lice ovlašćeno od strane vlasnika autorskih prava. Možemo slati pitanja i povratne informacije na Web Data Commons mailing liste ili da ih postavimo u Web Data Commons Google Group.

Podrška

uredi

Web Data Commons je podržan od strane Evropske unije EU FP7 projekata, PlanetData i LOD2, kao i Amazon Web Services in Education Grant Award[2] i Njemačke fondacije za istraživanje.

  1. PlanetData[3] ima za cilj da uspostavi održivu evropsku zajednicu istraživača koji podržava organizacije u izlaganje svoje podatke u novim i korisnih načina.
  2. LOD2[4] je veliki projekat sufinansiran od strane Evropske komisije u okviru FP7 informacionih i komunikacionih tehnologija.
  3. Amazon Web Services oblak je u jedinstvenoj poziciji da pruži troškovno efikasna rešenja za obrazovne zajednice.

Vidi još

uredi

Reference

uredi
  1. ^ Web Data Commons
  2. ^ „Education Grant Award”. Arhivirano iz originala 17. 05. 2014. g. Pristupljeno 15. 05. 2014. 
  3. ^ „PlanetData”. Arhivirano iz originala 30. 05. 2014. g. Pristupljeno 15. 05. 2014. 
  4. ^ „LOD2”. Arhivirano iz originala 17. 05. 2014. g. Pristupljeno 15. 05. 2014. 

Spoljašnje veze

uredi