Веб-претраживач — разлика између измена

Садржај обрисан Садржај додат
м Враћене измене 87.116.177.80 (разговор) на последњу измену корисника Acamicamacaraca
ознака: враћање
Autobot (разговор | доприноси)
м Разне исправке
Ред 3:
'''Претраживач веба''' ({{јез-ен|web search engine}}) представља [[servisi Interneta|интернет сервис]], чија је сврха тражење информација на [[веб]]у, и то углавном задавањем кључних ријечи, а много рјеђе одабиром понуђених ставки. Исход претраге се најчешће приказује као списак веб-сајтова који садрже тражену информацију, уз могућност да се веб-странице које су одговор на упит посјете са страна претраживача.
 
Веб је развио [[Тим Бернерс-Ли]] и његове колеге, [[1990]]. године. За нешто више од двије деценије, постао је највећи извор [[информација]] у историји човјечанства. Процјењује се да је укупан број докумената и записа у базама података, стотине милијарди.<ref name="Bergman">{{cite journal | url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 | title=The Deep Web: Surfacing Hidden Value|last=Bergman|first=Michael K.| journal=The Journal of Electronic Publishing |year=2001| volume=7 | issue=1 | doi=10.3998/3336451.0007.104}}</ref> До краја 2005. године, већ је било преко милијарду корисника интернета широм свијета. Проналажење информација на интернету је постало битан дио свакодневних животних активности. У ствари, претраживање је друга најпопуларнија активност на вебу, иза [[електронска пошта|е-поште]], са преко 550 милиона претрага сваки дан.
 
Веб се састоји од површинског и дубинског (такође скривени или невидљиви веб). Свака страница на површинском вебу има логичну адресу која се назива [[Униформни ресурсни локатор|веб-адреса]] ({{јез-енгл|Uniforme Resource Locator - URL}}). Веб-адреса странице омогућава њено директно учитавање. Супротно томе, дубински веб садржи странице које није могуће директно учитати као и записе у базама података који су складиштени у системима база података. Сматра се да је дубински веб 100 пута већи од површинског.<ref name="Bergman" />
Ред 12:
 
== Архитекутра претраживача веба ==
Архитектура различитих претраживача веба може знатно варирати, међутим типичан претраживач докумената се обично састоји од слиједеће четири компоненте: претраживача локације веба (web crawler), индексера (indexer), индекса базе података и машине за упите (query engine). Претраживач локације веба, такође познат као програм трагач (web spider) или веб-робот, пролази кроз веб у потрази за веб-страницама слиједећи њихове УРЛURL адресе. Индексер је задужен за анализу текста сваке пронађене веб-странице и вађење кључних ријечи на основу којих се онда прави индексна база података свих анализираних веб-страница. Када корисник уради упит, машина за упите претражује индексну базу података у потрази за страницама које одговарају кључним ријечима које су предмет корисниковог упита.
 
=== Претраживање веб-сајтова ===
Претраживач веб-сајтова (web crawler) је рачунарски програм који преузима веб-странице са веб-сервера. УРЛURL сваке веб-странице идентификује њену локацију на вебу. Обзиром на постојање УРЛURL адресе, свака веб-страница се може преузети са веб-сервера употребом протокола за пренос хипертекста ([[HTTP]]). Полазећи од једне почетне УРЛURL адресе, претраживач локација веба непрестано преузима веб-странице базирајући се на њиховим УРЛURL адресама и вади УРЛURL адресе из оних већ преузетих, тако да је могуће преузети нове. Овај процес се завршава када је неки услов за заустављање програма испуњен. Неки од могућих услова за његово заустављање су: (1) нема више нових УРЛURL адреса на локацији или (2) унапријед дефинисани број, односно списак веб-страница је већ преузет. Пошто претраживач веб-локација може бити у интеракцији са разноликим самосталним веб-серверима, битно је да буде пројектован тако да га је лако прилагодити новим захтјевима.
 
Како би се убрзао процес претраживања, могуће је употријебити више прераживача локација веба. Они могу бити два различита типа, централизовани и дистрибуирани.<ref name = "Wu">[http://wwwis.win.tue.nl/ah2003/proceedings/paper18.pdf Jie Wu, ''Towards a Decentralized Search Architecture for the Web and P2P Systems''], Приступљено 24. 4. 2013.</ref> Централизовани претраживачи локација веба се налазе на истој локацији са које се покрећу паралелно и са више машина.<ref name = Büttcher>Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack [http://www.ir.uwaterloo.ca/book/14-parallel-information-retrieval.pdf Chapter 14 Parallel Information Retrieval] in ''Information Retrieval: Implementing and Evaluating Search Engines'' 2010 MIT Press</ref> Дистрибуирани претраживачи локација веба се налазе на више различитих локација на интернету и контролишу се путем једног централног координатора, другим ријечима сваки претраживач локација веба преузима само веб-странице које су му географски близу. Најзначајнија предност дистрибуираних претаживача локација веба тиче се смањења трошкова комуникација који су резултат њихове активности. Међутим централизовани претраживачи су лакши за имплементацију и контролу него дистрибуирани.
 
Раст и константне промјене на вебу, стварају потребу да претраживачи локација веба регуларно врше нова претраживања као и да одржавају индексну базу података ажурном. Међутим, сувише често претраживање веба би довело до значајног трошења ресурса, али и потешкоће у раду веб-сервера на којима се тражене веб-странице налазе. Стога је потребно употријебити једну стратегију инкременталног претраживања. Једна од њих је да се само претражују веб-странице чији се садржај или УРЛURL адреса промијенила од посљедње претраге. Друга стратегија је да се употријебе претраживачи локација веба који имају предефинисану област претраге, или предефинисани скуп тема за претрагу. Ови посљедњи се могу искористити за креирање специјализованих претраживача локација веба који су једино заинтересовани за веб-странице одређене тематике.
 
Конвенционални претраживачи веб-локација се могу употријебити само за претраживање површинског веба. Посебни претраживачи локација веба се пројектују за претрагу информација које се налазе у дубинском вебу. Пошто су информације које се налазе у дубинском вебу обично скривене иза разних интерфејса претраге, претраживачи локација дубинског веба су пројектовани тако да прикупљају податке вршећи упите у интерфејсу претраге и преузму повратне резултате.
Ред 59:
 
== Спољашње везе ==
{{commonscatCommonscat|Internet search engines}}
=== Светски интернет претраживачи ===
* [[Гугл]] [http://www.google.rs]