Веб-претраживач — разлика између измена

Садржај обрисан Садржај додат
Autobot (разговор | доприноси)
м Бот: исправљена преусмерења
мНема описа измене
Ред 1:
{{malo_inlajn_referenci}}
[[Датотека:Meta-search-en.svg|мини|300п| Шема концепта мета-претраживача]]
'''Претраживач веба''' (енг. {{јез-ен|web search engine}}) представља [[servisi Interneta|интернет сервис]], чија је сврха тражење информација на [[светска мрежа|вебу]], и то углавном задавањем кључних ријечи, а много рјеђе одабиром понуђених ставки. Исход претраге се најчешће приказује као списак веб-сајтова који садрже тражену информацију, уз могућност да се веб странице које су одговор на упит посјете са страна претраживача.
 
Веб је развио [[Тим Бернерс-Ли]] и његове колеге, [[1990]]. године. За нешто више од двије деценије, постао је највећи извор [[информација]] у историји човјечанства. Процјењује се да је укупан број докумената и записа у базама података, стотине милијарди.<ref name="Bergman">{{cite journal | url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 | title=The Deep Web: Surfacing Hidden Value|last=Bergman|first=Michael K.| journal=The Journal of Electronic Publishing | year=2001 | month=August | volume=7 | issue=1 | doi=10.3998/3336451.0007.104}}</ref> До краја 2005. године, већ је било преко милијарду корисника интернета широм свијета. Проналажење информација на интернету је постало битан дио свакодневних животних активности. У ствари, претраживање је друга најпопуларнија активност на вебу, иза [[електронска пошта|е-поште]], са преко 550 милиона претрага сваки дан.
Ред 12:
 
== Архитекутра претраживача веба ==
 
Архитектура различитих претраживача веба може знатно варирати, међутим типичан претраживач докумената се обично састоји од слиједеће четири компоненте: претраживача локације веба (web crawler), индексера (indexer), индекса базе података и машине за упите (query engine). Претраживач локације веба, такође познат као програм трагач (web spider) или веб робот, пролази кроз веб у потрази за веб страницама слиједећи њихове УРЛ адресе. Индексер је задужен за анализу текста сваке пронађене веб странице и вађење кључних ријечи на основу којих се онда прави индексна база података свих анализираних веб страница. Када корисник уради упит, машина за упите претражује индексну базу података у потрази за страницама које одговарају кључним ријечима које су предмет корисниковог упита.
 
=== Претраживање локација веба (веб сајтова) ===
Претраживач локацијавеб вебасајтова (web crawler) је рачунарски програм који преузима веб странице са веб-сервера. УРЛ сваке веб странице идентификује њену локацију на вебу. Обзиром на постојање УРЛ адресе, свака веб страница се може преузети са веб-сервера употребом протокола за пренос хипертекста ([[ХТТП]]). Полазећи од једне почетне УРЛ адресе, претраживач локација веба непрестано преузима веб странице базирајући се на њиховим УРЛ адресама и вади УРЛ адресе из оних већ преузетих, тако да је могуће преузети нове. Овај процес се завршава када је неки услов за заустављање програма испуњен. Неки од могућих услова за његово заустављање су: (1) нема више нових УРЛ адреса на локацији или (2) унапријед дефинисани број, односно списак веб страница је већ преузет. Пошто претраживач веб локација може бити у интеракцији са разноликим самосталним веб-серверима, битно је да буде пројектован тако да га је лако прилагодити новим захтјевима.
 
Претраживач локација веба (web crawler) је рачунарски програм који преузима веб странице са веб-сервера. УРЛ сваке веб странице идентификује њену локацију на вебу. Обзиром на постојање УРЛ адресе, свака веб страница се може преузети са веб-сервера употребом протокола за пренос хипертекста ([[ХТТП]]). Полазећи од једне почетне УРЛ адресе, претраживач локација веба непрестано преузима веб странице базирајући се на њиховим УРЛ адресама и вади УРЛ адресе из оних већ преузетих, тако да је могуће преузети нове. Овај процес се завршава када је неки услов за заустављање програма испуњен. Неки од могућих услова за његово заустављање су: (1) нема више нових УРЛ адреса на локацији или (2) унапријед дефинисани број, односно списак веб страница је већ преузет. Пошто претраживач веб локација може бити у интеракцији са разноликим самосталним веб-серверима, битно је да буде пројектован тако да га је лако прилагодити новим захтјевима.
 
Како би се убрзао процес претраживања, могуће је употријебити више прераживача локација веба. Они могу бити два различита типа, централизовани и дистрибуирани.<ref name = "Wu">[http://wwwis.win.tue.nl/ah2003/proceedings/paper18.pdf Jie Wu, ''Towards a Decentralized Search Architecture for the Web and P2P Systems''], Приступљено 24. 4. 2013.</ref> Централизовани претраживачи локација веба се налазе на истој локацији са које се покрећу паралелно и са више машина.<ref name = Büttcher> Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack [http://www.ir.uwaterloo.ca/book/14-parallel-information-retrieval.pdf Chapter 14 Parallel Information Retrieval] in ''Information Retrieval: Implementing and Evaluating Search Engines'' 2010 MIT Press</ref> Дистрибуирани претраживачи локација веба се налазе на више различитих локација на интернету и контролишу се путем једног централног координатора, другим ријечима сваки претраживач локација веба преузима само веб странице које су му географски близу. Најзначајнија предност дистрибуираних претаживача локација веба тиче се смањења трошкова комуникација који су резултат њихове активности. Међутим централизовани претраживачи су лакши за имплементацију и контролу него дистрибуирани.
Линија 26 ⟶ 24:
 
=== Индексирање веб страница ===
 
Након што су веб странице преузете на мјесто претраживача, оне се обрађују у формату који је подесан за ефективну и ефикасну употребу са претраживачима. Садржаји странице могу бити представљени ријечима које се на њој налазе. Несадржајне ријечи као шту су „је“ или „ли“ се обично не користе за представљање садржаја. Неријетко, ријечи се конвертују у њихов коријен употребом одговарајућег програма како би се олакшало погађање различитих варијација исте ријечи. На примјер, „рачун“ је коријен ријечи „рачунати“ и „рачунарство“. Након уклањања несадржајних ријечи са странице и процеса извлачења коријена, преостале ријечи (такозвани индексни појмови) користе се за представљање странице у претрази. Реченице се такође могу препозанти као засебни индексни појмови. Након тога, одлучује се о значају сваког појма у заступању садржаја странице приликом давања резултата претраге у претраживачу.
 
Линија 32 ⟶ 29:
 
=== Ранговање страница за корисничке упите ===
 
Уобичајени упит претраживачу веба се састоји од неких кључних ријечи. Такав упит се такође може представити као скуп појмова са одређеним значајем. Степен поклапања између странице и упита, односно такозване сличности, може се мјерити појмовима које они међусобно дијеле. Једноставан приступ овом проблему је да се сабирају производи значаја који одговарају појмовима између упита и странице. Овај приступ даје као резултат веће сличности за странице које дијеле најважније појмове са самим упитом. Међутим, има тенденцију да даје предност дужим страницама над краћим. Овај проблем се обично ријешава тако што се горња сличност дијели са производом значаја упита и странице. Функција која израчунава ову врсту сличности, назива се косинус функција. Дужину сваке странице је овдје могуће израчунати унапријед и ускладиштити на претраживачу.
 
Линија 38 ⟶ 34:
 
=== Ефективност и ефикасност претраге ===
 
За страницу се каже да је ''релевантна'', уколико корисник који је извршио упит налази да је корисна. За задати упит корисника на фиксни скуп страница, скуп оних које су релевантне је такође фиксан. Добар систем претраге треба кориснику да врати висок степен релевантних страница као и да их рангује високо у повратним резултатима. Традиционално, ефективност система претраге се мјери преко два количника позната као одзив и прецизност. Код упита у скуп докумената x, одзив је проценат релевантних докумената који се на упит одзивају, а прецизност је проценат одзваних докумената који су за упит релевантни. Да би се оцјенила ефективност једног система претраге, врше се пробе низом упита. За сваки посебан упит, скуп релевантних докумената се идентификује унапријед. Код сваког пробног упита тражи се вриједност прецизности за сваку тачку одзива понаособ. Када се направи једна просјечна вриједност прецизности за сваку тачку одзива, онда се добије крива укупне просјечне прецизности система претраге која служи као мјера његове ефективности. Један систем претраге се сматра ефективнијим од другог, уколико је његова крива прецизности и одзива изнад криве другог. Код савршеног система претраге вриједности одзива и прецизности треба да буду једнаке броју 1. Другим ријечима, такав систем проналази тачан скуп релевантних докумената за сваки упит. У пракси, савршен учинак није остварљив из много разлога. На примјер, потребе корисника за одређеним информацијама обично не могу бити прецизно дефинисане пробним упитом, али нисам садржај у документима, као ни у упитима, се не може у потпуности представити пондерисаним појмовима.
 
Линија 44 ⟶ 39:
 
== Суштина алгоритама ==
 
Претраживачи веба су, у основи, експертски системи који имају за циљ стварање што више хеуристика способних за помоћ експертском систему у предвиђању шта је то што корисник тражи.
 
== Специјализовани претраживачи веба ==
 
Специјализовни претраживачи веба за сврху имају тражење информација у вези са специфичном облашћу.