Веб-претраживач — разлика између измена
Садржај обрисан Садржај додат
Поништена измена - неправилно постављање хипервезе ознака: поништење |
Исправљене словне грешке |
||
Ред 11:
Већина претраживача покривају само мали дио веба. Да би се повећала покривеност једног система претраге, могуће је комбиновати више претраживача одједном. Системи за претрагу који користе друге претраживаче за обављање претраге и комбинују их са својим резултатима, називају се метапретраживачи.
==
Архитектура различитих претраживача веба може знатно варирати, међутим типичан претраживач докумената се обично састоји од слиједеће четири компоненте: претраживача локације веба ([[Veb-popisivač|web crawler]]), индексера ([[indexer]]), индекса базе података и машине за упите ([[query engine]]). Претраживач локације веба, такође познат као програм трагач ([[web spider]]) или веб-робот, пролази кроз веб у потрази за веб-страницама слиједећи њихове URL адресе. Индексер је задужен за анализу текста сваке пронађене веб-странице и вађење кључних ријечи на основу којих се онда прави индексна база података свих анализираних веб-страница. Када корисник уради упит, машина за упите претражује индексну базу података у потрази за страницама које одговарају кључним ријечима које су предмет корисниковог упита.
Ред 17:
Претраживач веб-сајтова (web crawler) је рачунарски програм који преузима веб-странице са веб-сервера. URL сваке веб-странице идентификује њену локацију на вебу. Обзиром на постојање URL адресе, свака веб-страница се може преузети са веб-сервера употребом протокола за пренос хипертекста ([[ХТТП|HTTP]]). Полазећи од једне почетне URL адресе, претраживач локација веба непрестано преузима веб-странице базирајући се на њиховим URL адресама и вади URL адресе из оних већ преузетих, тако да је могуће преузети нове. Овај процес се завршава када је неки услов за заустављање програма испуњен. Неки од могућих услова за његово заустављање су: (1) нема више нових URL адреса на локацији или (2) унапријед дефинисани број, односно списак веб-страница је већ преузет. Пошто претраживач веб-локација може бити у интеракцији са разноликим самосталним веб-серверима, битно је да буде пројектован тако да га је лако прилагодити новим захтјевима.
Како би се убрзао процес претраживања, могуће је употријебити више
Раст и константне промјене на вебу, стварају потребу да претраживачи локација веба регуларно врше нова претраживања као и да одржавају индексну базу података ажурном. Међутим, сувише често претраживање веба би довело до значајног трошења ресурса, али и потешкоће у раду веб-сервера на којима се тражене веб-странице налазе. Стога је потребно употријебити једну стратегију инкременталног претраживања. Једна од њих је да се само претражују веб-странице чији се садржај или URL адреса промијенила од посљедње претраге. Друга стратегија је да се употријебе претраживачи локација веба који имају предефинисану област претраге, или предефинисани скуп тема за претрагу. Ови посљедњи се могу искористити за креирање специјализованих претраживача локација веба који су једино заинтересовани за веб-странице одређене тематике.
Ред 24:
=== Индексирање веб-страница ===
Након што су веб-странице преузете на мјесто претраживача, оне се обрађују у формату који је подесан за ефективну и ефикасну употребу са претраживачима. Садржаји странице могу бити представљени ријечима које се на њој налазе. Несадржајне ријечи као шту су „је“ или „ли“ се обично не користе за представљање садржаја. Неријетко, ријечи се конвертују у њихов коријен употребом одговарајућег програма како би се олакшало погађање различитих варијација исте ријечи. На примјер, „рачун“ је коријен ријечи „рачунати“ и „рачунарство“. Након уклањања несадржајних ријечи са странице и процеса извлачења коријена, преостале ријечи (такозвани индексни појмови) користе се за представљање странице у претрази. Реченице се такође могу
Значај појма п на страници с у оквиру датог скупа С страница, може се одредити на више начина. Ако третирамо сваку страницу као текстуални документ, онда се значај п обично израчунава на бази двије [[статистика|статистике]]. Прва се односи на фреквентност појма (фп) у с, односно број пута појављивања појма п у страници с, а друга се односи на фреквентност документа (фд) у скупу С, односно број страница у скупу страница С у којима се среће појам п.
=== Ранговање страница за корисничке упите ===
Уобичајени упит претраживачу веба се састоји од неких кључних ријечи. Такав упит се такође може представити као скуп појмова са одређеним значајем. Степен поклапања између странице и упита, односно такозване сличности, може се мјерити појмовима које они међусобно дијеле. Једноставан приступ овом проблему је да се сабирају производи значаја који одговарају појмовима између упита и странице. Овај приступ даје као резултат веће сличности за странице које дијеле најважније појмове са самим упитом. Међутим, има тенденцију да даје предност дужим страницама над краћим. Овај проблем се обично ријешава тако што се горња сличност дијели са производом значаја упита и странице. Функција која израчунава ову врсту сличности, назива се косинус функција. Дужину сваке странице је овдје могуће израчунати унапријед и ускладиштити на претраживачу.
Постоје многе методе за ранговање веб-страница за корисничке упите, а различити претраживачи их различито користе. На примјер, неке методе ранговања могу узети у обзир близину појмова који су предмет упита у некој страници. Као други примјер, претраживач може сачувати информације о броју приступа различитих корисника одређеној страници и искористити те информације за ранговање веб-страница које ће се приказати поводом будућих упита. На вебу постоји много популарних претраживача, али Гугл је сматран једним од најпопуларнијих. Главни разлог за то је његова метода ранговања страница која има способност да
=== Ефективност и ефикасност претраге ===
За страницу се каже да је ''релевантна'', уколико корисник који је извршио упит налази да је корисна. За задати упит корисника на фиксни скуп страница, скуп оних које су релевантне је такође фиксан. Добар систем претраге треба кориснику да врати висок степен релевантних страница као и да их рангује високо у повратним резултатима. Традиционално, ефективност система претраге се мјери преко два количника позната као одзив и прецизност. Код упита у скуп докумената x, одзив је проценат релевантних докумената који се на упит одзивају, а прецизност је проценат одзваних докумената који су за упит релевантни. Да би се оцјенила ефективност једног система претраге, врше се пробе низом упита. За сваки посебан упит, скуп релевантних докумената се идентификује унапријед. Код сваког пробног упита тражи се вриједност прецизности за сваку тачку одзива понаособ. Када се направи једна просјечна вриједност прецизности за сваку тачку одзива, онда се добије крива укупне просјечне прецизности система претраге која служи као мјера његове ефективности. Један систем претраге се сматра ефективнијим од другог, уколико је његова крива прецизности и одзива изнад криве другог. Код савршеног система претраге вриједности одзива и прецизности треба да буду једнаке броју 1. Другим ријечима, такав систем проналази тачан скуп релевантних докумената за сваки упит. У пракси, савршен учинак није остварљив из много разлога. На примјер, потребе корисника за одређеним информацијама обично не могу бити прецизно дефинисане пробним упитом, али нисам садржај у документима, као ни у упитима, се не може у потпуности представити пондерисаним појмовима.
Употреба одзива и прецизности за мјерење ефективности традиционалног система претраге текста, захтијева да је унапријед познат број свих релевантних докумената за сваки пробни упит. Међутим, ово није практично за оцјењивање и независно вредновање великих претраживача, будући да је немогуће знати број релевантних страница за сваки упит у претраживачу, уколико се све оне ручно не прегледају. Без познавања броја релевантних страница за сваки пробни упит, мјера одзива се не може израчунати. Као резултат овог практичног ограничења, претраживачи се често оцјењују на основу средње прецизности која се
== Суштина алгоритама ==
Ред 42:
== Специјализовани претраживачи веба ==
== Види још ==
|