Веб-претраживач — разлика између измена
Садржај обрисан Садржај додат
Нема описа измене |
м Разне исправке; козметичке измене |
||
Ред 15:
=== Претраживање веб-сајтова ===
Претраживач веб-сајтова (web crawler) је рачунарски програм који преузима веб-странице са веб-сервера. УРЛ сваке веб-странице идентификује њену локацију на вебу. Обзиром на постојање УРЛ адресе, свака веб-страница се може преузети са веб-сервера употребом протокола за пренос хипертекста ([[
Како би се убрзао процес претраживања, могуће је употријебити више прераживача локација веба. Они могу бити два различита типа, централизовани и дистрибуирани.<ref name = "Wu">[http://wwwis.win.tue.nl/ah2003/proceedings/paper18.pdf Jie Wu, ''Towards a Decentralized Search Architecture for the Web and P2P Systems''], Приступљено 24. 4. 2013.</ref> Централизовани претраживачи локација веба се налазе на истој локацији са које се покрећу паралелно и са више машина.<ref name = Büttcher> Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack [http://www.ir.uwaterloo.ca/book/14-parallel-information-retrieval.pdf Chapter 14 Parallel Information Retrieval] in ''Information Retrieval: Implementing and Evaluating Search Engines'' 2010 MIT Press</ref> Дистрибуирани претраживачи локација веба се налазе на више различитих локација на интернету и контролишу се путем једног централног координатора, другим ријечима сваки претраживач локација веба преузима само веб-странице које су му географски близу. Најзначајнија предност дистрибуираних претаживача локација веба тиче се смањења трошкова комуникација који су резултат њихове активности. Међутим централизовани претраживачи су лакши за имплементацију и контролу него дистрибуирани.
Ред 26:
Након што су веб-странице преузете на мјесто претраживача, оне се обрађују у формату који је подесан за ефективну и ефикасну употребу са претраживачима. Садржаји странице могу бити представљени ријечима које се на њој налазе. Несадржајне ријечи као шту су „је“ или „ли“ се обично не користе за представљање садржаја. Неријетко, ријечи се конвертују у њихов коријен употребом одговарајућег програма како би се олакшало погађање различитих варијација исте ријечи. На примјер, „рачун“ је коријен ријечи „рачунати“ и „рачунарство“. Након уклањања несадржајних ријечи са странице и процеса извлачења коријена, преостале ријечи (такозвани индексни појмови) користе се за представљање странице у претрази. Реченице се такође могу препозанти као засебни индексни појмови. Након тога, одлучује се о значају сваког појма у заступању садржаја странице приликом давања резултата претраге у претраживачу.
Значај појма п на страници с у оквиру датог скупа С страница, може се одредити на више начина. Ако третирамо сваку страницу као текстуални документ, онда се значај п обично израчунава на бази двије [[статистика|статистике]]. Прва се односи на фреквентност појма (фп) у с, односно број пута појављивања појма п у страници с, а друга се односи на фреквентност документа (фд) у скупу С, односно број страница у скупу страница С у којима се среће појам п. Интиутивно гледано, што се у више страница налази појам п, то је више битан као заступник садржаја странице. Међутим, што се у више различитих страница појављује појам п, утолико је мање употребљив за диференцирање различитих страница једних од других. Као резултат, значај појма би требало да буде монолитна опадајућа функција његове фреквентности у различитим документима. Тренутно, већина веб-страница је форматирана у језику за маркирање хипертекста ([[HTML
=== Ранговање страница за корисничке упите ===
|