Веб-претраживач — разлика између измена

Садржај обрисан Садржај додат
Нема описа измене
Autobot (разговор | доприноси)
м Разне исправке; козметичке измене
Ред 15:
 
=== Претраживање веб-сајтова ===
Претраживач веб-сајтова (web crawler) је рачунарски програм који преузима веб-странице са веб-сервера. УРЛ сваке веб-странице идентификује њену локацију на вебу. Обзиром на постојање УРЛ адресе, свака веб-страница се може преузети са веб-сервера употребом протокола за пренос хипертекста ([[ХТТПHTTP]]). Полазећи од једне почетне УРЛ адресе, претраживач локација веба непрестано преузима веб-странице базирајући се на њиховим УРЛ адресама и вади УРЛ адресе из оних већ преузетих, тако да је могуће преузети нове. Овај процес се завршава када је неки услов за заустављање програма испуњен. Неки од могућих услова за његово заустављање су: (1) нема више нових УРЛ адреса на локацији или (2) унапријед дефинисани број, односно списак веб-страница је већ преузет. Пошто претраживач веб-локација може бити у интеракцији са разноликим самосталним веб-серверима, битно је да буде пројектован тако да га је лако прилагодити новим захтјевима.
 
Како би се убрзао процес претраживања, могуће је употријебити више прераживача локација веба. Они могу бити два различита типа, централизовани и дистрибуирани.<ref name = "Wu">[http://wwwis.win.tue.nl/ah2003/proceedings/paper18.pdf Jie Wu, ''Towards a Decentralized Search Architecture for the Web and P2P Systems''], Приступљено 24. 4. 2013.</ref> Централизовани претраживачи локација веба се налазе на истој локацији са које се покрећу паралелно и са више машина.<ref name = Büttcher> Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack [http://www.ir.uwaterloo.ca/book/14-parallel-information-retrieval.pdf Chapter 14 Parallel Information Retrieval] in ''Information Retrieval: Implementing and Evaluating Search Engines'' 2010 MIT Press</ref> Дистрибуирани претраживачи локација веба се налазе на више различитих локација на интернету и контролишу се путем једног централног координатора, другим ријечима сваки претраживач локација веба преузима само веб-странице које су му географски близу. Најзначајнија предност дистрибуираних претаживача локација веба тиче се смањења трошкова комуникација који су резултат њихове активности. Међутим централизовани претраживачи су лакши за имплементацију и контролу него дистрибуирани.
Ред 26:
Након што су веб-странице преузете на мјесто претраживача, оне се обрађују у формату који је подесан за ефективну и ефикасну употребу са претраживачима. Садржаји странице могу бити представљени ријечима које се на њој налазе. Несадржајне ријечи као шту су „је“ или „ли“ се обично не користе за представљање садржаја. Неријетко, ријечи се конвертују у њихов коријен употребом одговарајућег програма како би се олакшало погађање различитих варијација исте ријечи. На примјер, „рачун“ је коријен ријечи „рачунати“ и „рачунарство“. Након уклањања несадржајних ријечи са странице и процеса извлачења коријена, преостале ријечи (такозвани индексни појмови) користе се за представљање странице у претрази. Реченице се такође могу препозанти као засебни индексни појмови. Након тога, одлучује се о значају сваког појма у заступању садржаја странице приликом давања резултата претраге у претраживачу.
 
Значај појма п на страници с у оквиру датог скупа С страница, може се одредити на више начина. Ако третирамо сваку страницу као текстуални документ, онда се значај п обично израчунава на бази двије [[статистика|статистике]]. Прва се односи на фреквентност појма (фп) у с, односно број пута појављивања појма п у страници с, а друга се односи на фреквентност документа (фд) у скупу С, односно број страница у скупу страница С у којима се среће појам п. Интиутивно гледано, што се у више страница налази појам п, то је више битан као заступник садржаја странице. Међутим, што се у више различитих страница појављује појам п, утолико је мање употребљив за диференцирање различитих страница једних од других. Као резултат, значај појма би требало да буде монолитна опадајућа функција његове фреквентности у различитим документима. Тренутно, већина веб-страница је форматирана у језику за маркирање хипертекста ([[HTML|ХТМЛ]]), који посједује скуп тагова као што су title и header. Те информације се могу користити за утјецање на значај појмова који представљају веб-странице. На примјер, појмови који се налазе у наслову једне веб-странице, истакнути масним или искошеним словима, врло вјероватно су значајнији за заступање једне веб-странице него они који се појављују у њеном садржају (body) и који су без посебног форматирања.
 
=== Ранговање страница за корисничке упите ===