Веб-претраживач

Претраживач веба (енгл. web search engine) представља интернет сервис, чија је сврха тражење информација на вебу, и то углавном задавањем кључних ријечи, а много рјеђе одабиром понуђених ставки. Исход претраге се најчешће приказује као списак веб-сајтова који садрже тражену информацију, уз могућност да се веб-странице које су одговор на упит посјете са страна претраживача.

Веб је развио Тим Бернерс-Ли и његове колеге, 1990. године. За нешто више од двије деценије, постао је највећи извор информација у историји човјечанства. Процјењује се да је укупан број докумената и записа у базама података, стотине милијарди.^[1] До краја 2005. године, већ је било преко милијарду корисника интернета широм свијета. Проналажење информација на интернету је постало битан дио свакодневних животних активности. У ствари, претраживање је друга најпопуларнија активност на вебу, иза е-поште, са преко 550 милиона претрага сваки дан.

Веб се састоји од површинског и дубинског (такође скривени или невидљиви веб). Свака страница на површинском вебу има логичну адресу која се назива веб-адреса (енгл. Uniforme Resource Locator - URL). Веб-адреса странице омогућава њено директно учитавање. Супротно томе, дубински веб садржи странице које није могуће директно учитати као и записе у базама података који су складиштени у системима база података. Сматра се да је дубински веб 100 пута већи од површинског.^[1]

Алатке које се користе за проналажење информација на вебу зову се претраживачи. Вјерује се да је више од милион претраживача оперативно на вебу. Претраживаче је могуће класификовати на основу типа података које претражују. Претраживачи који претражују текстуалне документе зовемо претраживачи докумената, док претраживаче који претражују структурисане податке који се чувају у базама података зовемо претраживачи база података. Многи популарни претраживачи као што су Google и Yahoo су претраживачи докумената, док се многи претраживачи е-трговина као што је Amazon.com, сматрају претраживачима база података. Интегрисани претраживач Википедије је такође примјер претраживача базе података. Претраживачи докумената обично имају простији интерфејс са текстуалним пољем гдје корисници уносе свој упит који обично чине кључне ријечи које одражавају потребе корисника за одређеним информацијама. С друге стране, многи претраживачи база података омогућавају корисницима да врше специфичне и сложеније упите. Постоје и претраживачи који су специјализовани за претрагу мултимедијалних датотека (аудио и видео записа и слика).

Већина претраживача покривају само мали дио веба. Да би се повећала покривеност једног система претраге, могуће је комбиновати више претраживача одједном. Системи за претрагу који користе друге претраживаче за обављање претраге и комбинују их са својим резултатима, називају се метапретраживачи.

Архитектура претраживача веба

Архитектура различитих претраживача веба може знатно варирати, међутим типичан претраживач докумената се обично састоји од слиједеће четири компоненте: претраживача локације веба (web crawler), индексера (indexer), индекса базе података и машине за упите (query engine). Претраживач локације веба, такође познат као програм трагач (web spider) или веб-робот, пролази кроз веб у потрази за веб-страницама слиједећи њихове URL адресе. Индексер је задужен за анализу текста сваке пронађене веб-странице и вађење кључних ријечи на основу којих се онда прави индексна база података свих анализираних веб-страница. Када корисник уради упит, машина за упите претражује индексну базу података у потрази за страницама које одговарају кључним ријечима које су предмет корисниковог упита.

Претраживање веб-сајтова

Претраживач веб-сајтова (web crawler) је рачунарски програм који преузима веб-странице са веб-сервера. URL сваке веб-странице идентификује њену локацију на вебу. Обзиром на постојање URL адресе, свака веб-страница се може преузети са веб-сервера употребом протокола за пренос хипертекста (HTTP). Полазећи од једне почетне URL адресе, претраживач локација веба непрестано преузима веб-странице базирајући се на њиховим URL адресама и вади URL адресе из оних већ преузетих, тако да је могуће преузети нове. Овај процес се завршава када је неки услов за заустављање програма испуњен. Неки од могућих услова за његово заустављање су: (1) нема више нових URL адреса на локацији или (2) унапријед дефинисани број, односно списак веб-страница је већ преузет. Пошто претраживач веб-локација може бити у интеракцији са разноликим самосталним веб-серверима, битно је да буде пројектован тако да га је лако прилагодити новим захтјевима.

Како би се убрзао процес претраживања, могуће је употријебити више претраживача локација веба. Они могу бити два различита типа, централизовани и дистрибуирани.^[2] Централизовани претраживачи локација веба се налазе на истој локацији са које се покрећу паралелно и са више машина.^[3] Дистрибуирани претраживачи локација веба се налазе на више различитих локација на интернету и контролишу се путем једног централног координатора, другим ријечима сваки претраживач локација веба преузима само веб-странице које су му географски близу. Најзначајнија предност дистрибуираних претраживача локација веба тиче се смањења трошкова комуникација који су резултат њихове активности. Међутим централизовани претраживачи су лакши за имплементацију и контролу него дистрибуирани.

Раст и константне промјене на вебу, стварају потребу да претраживачи локација веба регуларно врше нова претраживања као и да одржавају индексну базу података ажурном. Међутим, сувише често претраживање веба би довело до значајног трошења ресурса, али и потешкоће у раду веб-сервера на којима се тражене веб-странице налазе. Стога је потребно употријебити једну стратегију инкременталног претраживања. Једна од њих је да се само претражују веб-странице чији се садржај или URL адреса промијенила од посљедње претраге. Друга стратегија је да се употријебе претраживачи локација веба који имају предефинисану област претраге, или предефинисани скуп тема за претрагу. Ови посљедњи се могу искористити за креирање специјализованих претраживача локација веба који су једино заинтересовани за веб-странице одређене тематике.

Конвенционални претраживачи веб-локација се могу употријебити само за претраживање површинског веба. Посебни претраживачи локација веба се пројектују за претрагу информација које се налазе у дубинском вебу. Пошто су информације које се налазе у дубинском вебу обично скривене иза разних интерфејса претраге, претраживачи локација дубинског веба су пројектовани тако да прикупљају податке вршећи упите у интерфејсу претраге и преузму повратне резултате.

Индексирање веб-страница

Након што су веб-странице преузете на мјесто претраживача, оне се обрађују у формату који је подесан за ефективну и ефикасну употребу са претраживачима. Садржаји странице могу бити представљени ријечима које се на њој налазе. Несадржајне ријечи као што су „је“ или „ли“ се обично не користе за представљање садржаја. Неријетко, ријечи се конвертују у њихов коријен употребом одговарајућег програма како би се олакшало погађање различитих варијација исте ријечи. На примјер, „рачун“ је коријен ријечи „рачунати“ и „рачунарство“. Након уклањања несадржајних ријечи са странице и процеса извлачења коријена, преостале ријечи (такозвани индексни појмови) користе се за представљање странице у претрази. Реченице се такође могу препознати као засебни индексни појмови. Након тога, одлучује се о значају сваког појма у заступању садржаја странице приликом давања резултата претраге у претраживачу.

Значај појма п на страници с у оквиру датог скупа С страница, може се одредити на више начина. Ако третирамо сваку страницу као текстуални документ, онда се значај п обично израчунава на бази двије статистике. Прва се односи на фреквентност појма (фп) у с, односно број пута појављивања појма п у страници с, а друга се односи на фреквентност документа (фд) у скупу С, односно број страница у скупу страница С у којима се среће појам п. Интуитивно гледано, што се у више страница налази појам п, то је више битан као заступник садржаја странице. Међутим, што се у више различитих страница појављује појам п, утолико је мање употребљив за диференцирање различитих страница једних од других. Као резултат, значај појма би требало да буде монолитна опадајућа функција његове фреквентности у различитим документима. Тренутно, већина веб-страница је форматирана у језику за маркирање хипертекста (HTML), који посједује скуп тагова као што су title и header. Те информације се могу користити за утјецање на значај појмова који представљају веб-странице. На примјер, појмови који се налазе у наслову једне веб-странице, истакнути масним или искошеним словима, врло вјероватно су значајнији за заступање једне веб-странице него они који се појављују у њеном садржају (body) и који су без посебног форматирања.

Ранговање страница за корисничке упите

Уобичајени упит претраживачу веба се састоји од неких кључних ријечи. Такав упит се такође може представити као скуп појмова са одређеним значајем. Степен поклапања између странице и упита, односно такозване сличности, може се мјерити појмовима које они међусобно дијеле. Једноставан приступ овом проблему је да се сабирају производи значаја који одговарају појмовима између упита и странице. Овај приступ даје као резултат веће сличности за странице које дијеле најважније појмове са самим упитом. Међутим, има тенденцију да даје предност дужим страницама над краћим. Овај проблем се обично ријешава тако што се горња сличност дијели са производом значаја упита и странице. Функција која израчунава ову врсту сличности, назива се косинус функција. Дужину сваке странице је овдје могуће израчунати унапријед и ускладиштити на претраживачу.

Постоје многе методе за ранговање веб-страница за корисничке упите, а различити претраживачи их различито користе. На примјер, неке методе ранговања могу узети у обзир близину појмова који су предмет упита у некој страници. Као други примјер, претраживач може сачувати информације о броју приступа различитих корисника одређеној страници и искористити те информације за ранговање веб-страница које ће се приказати поводом будућих упита. На вебу постоји много популарних претраживача, али Гугл је сматран једним од најпопуларнијих. Главни разлог за то је његова метода ранговања страница која има способност да разликује најважније странице од мање важних чак и када се у свима њима исти број пута појављују појмови који су предмет упита. За одлучивање о значају сваке странице, Гугл користи информације о линковању међу њима, односно начин на који линкују једне на друге. Тако линк са странице A на страницу Б а који је поставио аутор странице A, служи као индикација да аутор странице A сматра да страница Б има неку вриједност. На читавом вебу, на страницу Б може линковати већи број других страница и ти линкови могу послужити за одлучивање о њеној свеукупној вриједности или значају. За дату страницу, PageRank је мјера њеног релативног значаја на вебу, и он се израчунава на бази информација о линковању.^[4] Три главне идеје стоје иза дефинисања значаја и израчунавања PageRank-a: (1) Странице које су линковане са више страница су највјероватније најважније. Другим ријечима, значај странице треба да се успостави на основу њене популарности међу ауторима свих других веб-страница. (2) Странице које су линковане са најзначајнијих веб-страница највјероватније и саме имају посебан значај. (3) Странице које имају линкове на више страница имају мање утицаја на значај сваке линковане странице појединачно. Другим ријечима, ако страница има више подстраница, онда она једино може пренијети мањи дио свог значаја на сваку од њих. На основу ових схватања Гуглови оснивачи су развили метод за израчунавање значаја (PageRank) сваке странице на вебу.^[4] PageRank веб-странице се може комбиновати са другим мјерама на бази садржаја за индикацију њеног свеукупног значаја у односу на дати упит. На примјер, за задати упит x, страница може бити рангована на основу пондерисаног збира њених сличности са упитом и њеног PageRank-а. Међу страницама са великим сличностима, овај метод ће дати предност онима које имају виши PageRank.

Ефективност и ефикасност претраге

За страницу се каже да је релевантна, уколико корисник који је извршио упит налази да је корисна. За задати упит корисника на фиксни скуп страница, скуп оних које су релевантне је такође фиксан. Добар систем претраге треба кориснику да врати висок степен релевантних страница као и да их рангује високо у повратним резултатима. Традиционално, ефективност система претраге се мјери преко два количника позната као одзив и прецизност. Код упита у скуп докумената x, одзив је проценат релевантних докумената који се на упит одзивају, а прецизност је проценат одзваних докумената који су за упит релевантни. Да би се оцијенила ефективност једног система претраге, врше се пробе низом упита. За сваки посебан упит, скуп релевантних докумената се идентификује унапријед. Код сваког пробног упита тражи се вриједност прецизности за сваку тачку одзива понаособ. Када се направи једна просјечна вриједност прецизности за сваку тачку одзива, онда се добије крива укупне просјечне прецизности система претраге која служи као мјера његове ефективности. Један систем претраге се сматра ефективнијим од другог, уколико је његова крива прецизности и одзива изнад криве другог. Код савршеног система претраге вриједности одзива и прецизности треба да буду једнаке броју 1. Другим ријечима, такав систем проналази тачан скуп релевантних докумената за сваки упит. У пракси, савршен учинак није остварљив из много разлога. На примјер, потребе корисника за одређеним информацијама обично не могу бити прецизно дефинисане пробним упитом, али ни сам садржај у документима, као ни у упитима, се не може у потпуности представити пондерисаним појмовима.

Употреба одзива и прецизности за мјерење ефективности традиционалног система претраге текста, захтијева да је унапријед познат број свих релевантних докумената за сваки пробни упит. Међутим, ово није практично за оцјењивање и независно вредновање великих претраживача, будући да је немогуће знати број релевантних страница за сваки упит у претраживачу, уколико се све оне ручно не прегледају. Без познавања броја релевантних страница за сваки пробни упит, мјера одзива се не може израчунати. Као резултат овог практичног ограничења, претраживачи се често оцјењују на основу средње прецизности која се израчунава на основу најрелевантнијих одзваних страница к за скуп пробних упита за неки мали цијели број —рецимо 20, или на основу просјечне позиције прве релевантне странице која је повратни резултат у сваком појединачном пробном упиту.^[5]

Суштина алгоритама

Претраживачи веба су, у основи, експертски системи који имају за циљ стварање што више хеуристика способних за помоћ експертском систему у предвиђању шта је то што корисник тражи.

Специјализовани претраживачи веба

Специјализовани претраживачи веба за сврху имају тражење информација у вези са специфичном облашћу.

Види још

Референце

^ ^а ^б Bergman, Michael K. (2001). „The Deep Web: Surfacing Hidden Value”. The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.
^ Jie Wu, Towards a Decentralized Search Architecture for the Web and P2P Systems, Приступљено 24. 4. 2013.
^ Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack Chapter 14 Parallel Information Retrieval Архивирано на сајту Wayback Machine (1. јун 2012) in Information Retrieval: Implementing and Evaluating Search Engines 2010 MIT Press
^ ^а ^б L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank Citation Ranking: Bring Order to the Web. Technical Report, Stanford University, 1998.
^ Hawking, David; Craswell, Nick; Bailey, Peter; Griffihs, Kathleen (2001). „Measuring Search Engine Quality”. Information Retrieval. 4 (1): 33—59. S2CID 14087666. doi:10.1023/A:1011468107287. hdl:1885/56355.

Спољашње везе

Светски интернет претраживачи

Српски интернет претраживачи

Специјализовани интернет претраживачи

[Bergman-1] а ^б Bergman, Michael K. (2001). „The Deep Web: Surfacing Hidden Value”. The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.

[Wu-2] Jie Wu, Towards a Decentralized Search Architecture for the Web and P2P Systems, Приступљено 24. 4. 2013.

[Büttcher-3] Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack Chapter 14 Parallel Information Retrieval Архивирано на сајту Wayback Machine (1. јун 2012) in Information Retrieval: Implementing and Evaluating Search Engines 2010 MIT Press

[Page_at_al-4] а ^б L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank Citation Ranking: Bring Order to the Web. Technical Report, Stanford University, 1998.

[Hawikng_at_al-5] Hawking, David; Craswell, Nick; Bailey, Peter; Griffihs, Kathleen (2001). „Measuring Search Engine Quality”. Information Retrieval. 4 (1): 33—59. S2CID 14087666. doi:10.1023/A:1011468107287. hdl:1885/56355.

[1]

[2]

[3]

[4]

[5]