Веб-претраживач — разлика између измена

Садржај обрисан Садржај додат
Autobot (разговор | доприноси)
м Разне исправке
м додавање унутрашњих веза
Ред 1:
{{malo_inlajn_referenci}}{{чишћење|разлог=|датум=}}
[[Датотека:Meta-search-en.svg|мини|300п| Шема концепта мета-претраживача]]
'''Претраживач веба''' ({{јез-ен|web search engine}}) представља [[servisiInternet Internetaservisi|интернет сервис]], чија је сврха тражење информација на [[веб]]у, и то углавном задавањем кључних ријечи, а много рјеђеређе одабиром понуђених ставки. Исход претраге се најчешће приказује као списак [[Веб-сајт|веб-сајтова]] који садрже тражену информацију, уз могућност да се веб-странице које су одговор на упит посјете са страна претраживача.
 
Веб је развио [[Тим Бернерс-Ли]] и његове колеге, [[1990]]. године. За нешто више од двије деценије, постао је највећи извор [[информација]] у историји човјечанства. Процјењује се да је укупан број докумената и записа у базама података, стотине милијарди.<ref name="Bergman">{{cite journal|url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 | title=The Deep Web: Surfacing Hidden Value|last=Bergman|first=Michael K.| journal=The Journal of Electronic Publishing |year=2001| volume=7 | issue=1 | doi=10.3998/3336451.0007.104}}</ref> До краја 2005. године, већ је било преко милијарду корисника интернета широм свијета. Проналажење информација на интернету је постало битан дио свакодневних животних активности. У ствари, претраживање је друга најпопуларнија активност на вебу, иза [[електронска пошта|е-поште]], са преко 550 милиона претрага сваки дан.
 
Веб се састоји од површинског и [[Дубока мрежа|дубинског]] (такође скривени или невидљиви веб). Свака страница на површинском вебу има логичну адресу која се назива [[Униформни ресурсни локатор|веб-адреса]] ({{јез-енгл|Uniforme Resource Locator - URL}}). Веб-адреса странице омогућава њено директно учитавање. Супротно томе, дубински веб садржи странице које није могуће директно учитати као и записе у базама података који су складиштени у системима база података. Сматра се да је дубински веб 100 пута већи од површинског.<ref name="Bergman" />
 
Алатке које се користе за проналажење информација на вебу зову се претраживачи. Вјерује се да је више од милион претраживача оперативно на вебу. Претраживаче је могуће класификовати на основу типа података које претражују. Претраживачи који претражују текстуалне документе зовемо претраживачи докумената, док претраживаче који претражују структурисане податке који се чувају у [[база података|базама података]] зовемо претраживачи база података. Многи популарни претраживачи као што су Google и Yahoo су претраживачи докумената, док се многи претраживачи е-трговина као што је Amazon.com, сматрају претраживачима база података. Интегрисани претраживач Википедије је такође примјер претраживача базе података. Претраживачи докумената обично имају простији интерфејс са текстуалним пољем гдје корисници уносе свој упит који обично чине кључне ријечи које одражавају потребе корисника за одређеним информацијама. С друге стране, многи претраживачи база података омогућавају корисницима да врше специфичне и сложеније упите. Постоје и претраживачи који су специјализовани за претрагу [[мултимедија]]лних [[датотека]] (аудио и видео записа и слика).
Ред 12:
 
== Архитекутра претраживача веба ==
Архитектура различитих претраживача веба може знатно варирати, међутим типичан претраживач докумената се обично састоји од слиједеће четири компоненте: претраживача локације веба ([[Veb-popisivač|web crawler]]), индексера ([[indexer]]), индекса базе података и машине за упите ([[query engine]]). Претраживач локације веба, такође познат као програм трагач ([[web spider]]) или веб-робот, пролази кроз веб у потрази за веб-страницама слиједећи њихове URL адресе. Индексер је задужен за анализу текста сваке пронађене веб-странице и вађење кључних ријечи на основу којих се онда прави индексна база података свих анализираних веб-страница. Када корисник уради упит, машина за упите претражује индексну базу података у потрази за страницама које одговарају кључним ријечима које су предмет корисниковог упита.
 
=== Претраживање веб-сајтова ===
Ред 31:
Уобичајени упит претраживачу веба се састоји од неких кључних ријечи. Такав упит се такође може представити као скуп појмова са одређеним значајем. Степен поклапања између странице и упита, односно такозване сличности, може се мјерити појмовима које они међусобно дијеле. Једноставан приступ овом проблему је да се сабирају производи значаја који одговарају појмовима између упита и странице. Овај приступ даје као резултат веће сличности за странице које дијеле најважније појмове са самим упитом. Међутим, има тенденцију да даје предност дужим страницама над краћим. Овај проблем се обично ријешава тако што се горња сличност дијели са производом значаја упита и странице. Функција која израчунава ову врсту сличности, назива се косинус функција. Дужину сваке странице је овдје могуће израчунати унапријед и ускладиштити на претраживачу.
 
Постоје многе методе за ранговање веб-страница за корисничке упите, а различити претраживачи их различито користе. На примјер, неке методе ранговања могу узети у обзир близину појмова који су предмет упита у некој страници. Као други примјер, претраживач може сачувати информације о броју приступа различитих корисника одређеној страници и искористити те информације за ранговање веб-страница које ће се приказати поводом будућих упита. На вебу постоји много популарних претраживача, али Гугл је сматран једним од најпопуларнијих. Главни разлог за то је његова метода ранговања страница која има способност да разлликује најважније странице од мање важних чак и када се у свима њима исти број пута појављују појмови који су предмет упита. За одлучивање о значају сваке стрнице, Гугл користи информације о линковању међу њима, односно начин на који линкују једне на друге. Тако линк са странице A на страницу Б а који је поставио аутор странице A, служи као индикација да аутор странице A сматра да страница Б има неку вриједност. На читавом вебу, на страницу Б може линковати већи број других страница и ти линкови могу послужити за одлучивање о њеној свеукупној вриједности или значају. За дату страницу, ''[[Пејџ ранк|PageRank]]'' је мјера њеног релативног значаја на вебу, и он се израчунава на бази информација о линковању.<ref name="Page at al">L. Page, S. Brin, R. Motwani, and T. Winograd. ''The PageRank Citation Ranking: Bring Order to the Web''. Technical Report, Stanford University, 1998.</ref> Три главне идеје стоје иза дефинисања значаја и израчунавања PageRank-a: (1) Странице које су линковане са више страница су највејероватније најважније. Другим ријечима, значај странице треба да се успостави на основу њене популарности међу ауторима свих других веб-страница. (2) Странице које су линковане са најзначајнијих веб-страница највјероватније и саме имају посебан значај. (3) Странице које имају линкове на више страница имају мање утицаја на значај сваке линковане странице појединачно. Другим ријечима, ако страница има више подстраница, онда она једино може пренијети мањи дио свог значаја на сваку од њих. На основу ових схватања Гуглови оснивачи су развили метод за израчунавање значаја (PageRank) сваке странице на вебу.<ref name="Page at al" /> PageRank веб-странице се може комбиновати са другим мјерама на бази садржаја за индикацију њеног свеукупног значаја у односу на дати упит. На примјер, за задати упит x, страница може бити рангована на основу пондерисаног збира њених сличности са упитом и њеног PageRank-а. Међу страницама са великим сличностима, овај метод ће дати предност онима које имају виши PageRank.
 
=== Ефективност и ефикасност претраге ===