Veb-pretraživač

Pretraživač veba (engl. web search engine) predstavlja internet servis, čija je svrha traženje informacija na vebu, i to uglavnom zadavanjem ključnih riječi, a mnogo rjeđe odabirom ponuđenih stavki. Ishod pretrage se najčešće prikazuje kao spisak veb-sajtova koji sadrže traženu informaciju, uz mogućnost da se veb-stranice koje su odgovor na upit posjete sa strana pretraživača.

Veb je razvio Tim Berners-Li i njegove kolege, 1990. godine. Za nešto više od dvije decenije, postao je najveći izvor informacija u istoriji čovječanstva. Procjenjuje se da je ukupan broj dokumenata i zapisa u bazama podataka, stotine milijardi.^[1] Do kraja 2005. godine, već je bilo preko milijardu korisnika interneta širom svijeta. Pronalaženje informacija na internetu je postalo bitan dio svakodnevnih životnih aktivnosti. U stvari, pretraživanje je druga najpopularnija aktivnost na vebu, iza e-pošte, sa preko 550 miliona pretraga svaki dan.

Veb se sastoji od površinskog i dubinskog (takođe skriveni ili nevidljivi veb). Svaka stranica na površinskom vebu ima logičnu adresu koja se naziva veb-adresa (engl. Uniforme Resource Locator - URL). Veb-adresa stranice omogućava njeno direktno učitavanje. Suprotno tome, dubinski veb sadrži stranice koje nije moguće direktno učitati kao i zapise u bazama podataka koji su skladišteni u sistemima baza podataka. Smatra se da je dubinski veb 100 puta veći od površinskog.^[1]

Alatke koje se koriste za pronalaženje informacija na vebu zovu se pretraživači. Vjeruje se da je više od milion pretraživača operativno na vebu. Pretraživače je moguće klasifikovati na osnovu tipa podataka koje pretražuju. Pretraživači koji pretražuju tekstualne dokumente zovemo pretraživači dokumenata, dok pretraživače koji pretražuju strukturisane podatke koji se čuvaju u bazama podataka zovemo pretraživači baza podataka. Mnogi popularni pretraživači kao što su Google i Yahoo su pretraživači dokumenata, dok se mnogi pretraživači e-trgovina kao što je Amazon.com, smatraju pretraživačima baza podataka. Integrisani pretraživač Vikipedije je takođe primjer pretraživača baze podataka. Pretraživači dokumenata obično imaju prostiji interfejs sa tekstualnim poljem gdje korisnici unose svoj upit koji obično čine ključne riječi koje odražavaju potrebe korisnika za određenim informacijama. S druge strane, mnogi pretraživači baza podataka omogućavaju korisnicima da vrše specifične i složenije upite. Postoje i pretraživači koji su specijalizovani za pretragu multimedijalnih datoteka (audio i video zapisa i slika).

Većina pretraživača pokrivaju samo mali dio veba. Da bi se povećala pokrivenost jednog sistema pretrage, moguće je kombinovati više pretraživača odjednom. Sistemi za pretragu koji koriste druge pretraživače za obavljanje pretrage i kombinuju ih sa svojim rezultatima, nazivaju se metapretraživači.

Arhitektura pretraživača veba

Arhitektura različitih pretraživača veba može znatno varirati, međutim tipičan pretraživač dokumenata se obično sastoji od slijedeće četiri komponente: pretraživača lokacije veba (web crawler), indeksera (indexer), indeksa baze podataka i mašine za upite (query engine). Pretraživač lokacije veba, takođe poznat kao program tragač (web spider) ili veb-robot, prolazi kroz veb u potrazi za veb-stranicama slijedeći njihove URL adrese. Indekser je zadužen za analizu teksta svake pronađene veb-stranice i vađenje ključnih riječi na osnovu kojih se onda pravi indeksna baza podataka svih analiziranih veb-stranica. Kada korisnik uradi upit, mašina za upite pretražuje indeksnu bazu podataka u potrazi za stranicama koje odgovaraju ključnim riječima koje su predmet korisnikovog upita.

Pretraživanje veb-sajtova

Pretraživač veb-sajtova (web crawler) je računarski program koji preuzima veb-stranice sa veb-servera. URL svake veb-stranice identifikuje njenu lokaciju na vebu. Obzirom na postojanje URL adrese, svaka veb-stranica se može preuzeti sa veb-servera upotrebom protokola za prenos hiperteksta (HTTP). Polazeći od jedne početne URL adrese, pretraživač lokacija veba neprestano preuzima veb-stranice bazirajući se na njihovim URL adresama i vadi URL adrese iz onih već preuzetih, tako da je moguće preuzeti nove. Ovaj proces se završava kada je neki uslov za zaustavljanje programa ispunjen. Neki od mogućih uslova za njegovo zaustavljanje su: (1) nema više novih URL adresa na lokaciji ili (2) unaprijed definisani broj, odnosno spisak veb-stranica je već preuzet. Pošto pretraživač veb-lokacija može biti u interakciji sa raznolikim samostalnim veb-serverima, bitno je da bude projektovan tako da ga je lako prilagoditi novim zahtjevima.

Kako bi se ubrzao proces pretraživanja, moguće je upotrijebiti više pretraživača lokacija veba. Oni mogu biti dva različita tipa, centralizovani i distribuirani.^[2] Centralizovani pretraživači lokacija veba se nalaze na istoj lokaciji sa koje se pokreću paralelno i sa više mašina.^[3] Distribuirani pretraživači lokacija veba se nalaze na više različitih lokacija na internetu i kontrolišu se putem jednog centralnog koordinatora, drugim riječima svaki pretraživač lokacija veba preuzima samo veb-stranice koje su mu geografski blizu. Najznačajnija prednost distribuiranih pretraživača lokacija veba tiče se smanjenja troškova komunikacija koji su rezultat njihove aktivnosti. Međutim centralizovani pretraživači su lakši za implementaciju i kontrolu nego distribuirani.

Rast i konstantne promjene na vebu, stvaraju potrebu da pretraživači lokacija veba regularno vrše nova pretraživanja kao i da održavaju indeksnu bazu podataka ažurnom. Međutim, suviše često pretraživanje veba bi dovelo do značajnog trošenja resursa, ali i poteškoće u radu veb-servera na kojima se tražene veb-stranice nalaze. Stoga je potrebno upotrijebiti jednu strategiju inkrementalnog pretraživanja. Jedna od njih je da se samo pretražuju veb-stranice čiji se sadržaj ili URL adresa promijenila od posljednje pretrage. Druga strategija je da se upotrijebe pretraživači lokacija veba koji imaju predefinisanu oblast pretrage, ili predefinisani skup tema za pretragu. Ovi posljednji se mogu iskoristiti za kreiranje specijalizovanih pretraživača lokacija veba koji su jedino zainteresovani za veb-stranice određene tematike.

Konvencionalni pretraživači veb-lokacija se mogu upotrijebiti samo za pretraživanje površinskog veba. Posebni pretraživači lokacija veba se projektuju za pretragu informacija koje se nalaze u dubinskom vebu. Pošto su informacije koje se nalaze u dubinskom vebu obično skrivene iza raznih interfejsa pretrage, pretraživači lokacija dubinskog veba su projektovani tako da prikupljaju podatke vršeći upite u interfejsu pretrage i preuzmu povratne rezultate.

Indeksiranje veb-stranica

Nakon što su veb-stranice preuzete na mjesto pretraživača, one se obrađuju u formatu koji je podesan za efektivnu i efikasnu upotrebu sa pretraživačima. Sadržaji stranice mogu biti predstavljeni riječima koje se na njoj nalaze. Nesadržajne riječi kao što su „je“ ili „li“ se obično ne koriste za predstavljanje sadržaja. Nerijetko, riječi se konvertuju u njihov korijen upotrebom odgovarajućeg programa kako bi se olakšalo pogađanje različitih varijacija iste riječi. Na primjer, „račun“ je korijen riječi „računati“ i „računarstvo“. Nakon uklanjanja nesadržajnih riječi sa stranice i procesa izvlačenja korijena, preostale riječi (takozvani indeksni pojmovi) koriste se za predstavljanje stranice u pretrazi. Rečenice se takođe mogu prepoznati kao zasebni indeksni pojmovi. Nakon toga, odlučuje se o značaju svakog pojma u zastupanju sadržaja stranice prilikom davanja rezultata pretrage u pretraživaču.

Značaj pojma p na stranici s u okviru datog skupa S stranica, može se odrediti na više načina. Ako tretiramo svaku stranicu kao tekstualni dokument, onda se značaj p obično izračunava na bazi dvije statistike. Prva se odnosi na frekventnost pojma (fp) u s, odnosno broj puta pojavljivanja pojma p u stranici s, a druga se odnosi na frekventnost dokumenta (fd) u skupu S, odnosno broj stranica u skupu stranica S u kojima se sreće pojam p. Intuitivno gledano, što se u više stranica nalazi pojam p, to je više bitan kao zastupnik sadržaja stranice. Međutim, što se u više različitih stranica pojavljuje pojam p, utoliko je manje upotrebljiv za diferenciranje različitih stranica jednih od drugih. Kao rezultat, značaj pojma bi trebalo da bude monolitna opadajuća funkcija njegove frekventnosti u različitim dokumentima. Trenutno, većina veb-stranica je formatirana u jeziku za markiranje hiperteksta (HTML), koji posjeduje skup tagova kao što su title i header. Te informacije se mogu koristiti za utjecanje na značaj pojmova koji predstavljaju veb-stranice. Na primjer, pojmovi koji se nalaze u naslovu jedne veb-stranice, istaknuti masnim ili iskošenim slovima, vrlo vjerovatno su značajniji za zastupanje jedne veb-stranice nego oni koji se pojavljuju u njenom sadržaju (body) i koji su bez posebnog formatiranja.

Rangovanje stranica za korisničke upite

Uobičajeni upit pretraživaču veba se sastoji od nekih ključnih riječi. Takav upit se takođe može predstaviti kao skup pojmova sa određenim značajem. Stepen poklapanja između stranice i upita, odnosno takozvane sličnosti, može se mjeriti pojmovima koje oni međusobno dijele. Jednostavan pristup ovom problemu je da se sabiraju proizvodi značaja koji odgovaraju pojmovima između upita i stranice. Ovaj pristup daje kao rezultat veće sličnosti za stranice koje dijele najvažnije pojmove sa samim upitom. Međutim, ima tendenciju da daje prednost dužim stranicama nad kraćim. Ovaj problem se obično riješava tako što se gornja sličnost dijeli sa proizvodom značaja upita i stranice. Funkcija koja izračunava ovu vrstu sličnosti, naziva se kosinus funkcija. Dužinu svake stranice je ovdje moguće izračunati unaprijed i uskladištiti na pretraživaču.

Postoje mnoge metode za rangovanje veb-stranica za korisničke upite, a različiti pretraživači ih različito koriste. Na primjer, neke metode rangovanja mogu uzeti u obzir blizinu pojmova koji su predmet upita u nekoj stranici. Kao drugi primjer, pretraživač može sačuvati informacije o broju pristupa različitih korisnika određenoj stranici i iskoristiti te informacije za rangovanje veb-stranica koje će se prikazati povodom budućih upita. Na vebu postoji mnogo popularnih pretraživača, ali Gugl je smatran jednim od najpopularnijih. Glavni razlog za to je njegova metoda rangovanja stranica koja ima sposobnost da razlikuje najvažnije stranice od manje važnih čak i kada se u svima njima isti broj puta pojavljuju pojmovi koji su predmet upita. Za odlučivanje o značaju svake stranice, Gugl koristi informacije o linkovanju među njima, odnosno način na koji linkuju jedne na druge. Tako link sa stranice A na stranicu B a koji je postavio autor stranice A, služi kao indikacija da autor stranice A smatra da stranica B ima neku vrijednost. Na čitavom vebu, na stranicu B može linkovati veći broj drugih stranica i ti linkovi mogu poslužiti za odlučivanje o njenoj sveukupnoj vrijednosti ili značaju. Za datu stranicu, PageRank je mjera njenog relativnog značaja na vebu, i on se izračunava na bazi informacija o linkovanju.^[4] Tri glavne ideje stoje iza definisanja značaja i izračunavanja PageRank-a: (1) Stranice koje su linkovane sa više stranica su najvjerovatnije najvažnije. Drugim riječima, značaj stranice treba da se uspostavi na osnovu njene popularnosti među autorima svih drugih veb-stranica. (2) Stranice koje su linkovane sa najznačajnijih veb-stranica najvjerovatnije i same imaju poseban značaj. (3) Stranice koje imaju linkove na više stranica imaju manje uticaja na značaj svake linkovane stranice pojedinačno. Drugim riječima, ako stranica ima više podstranica, onda ona jedino može prenijeti manji dio svog značaja na svaku od njih. Na osnovu ovih shvatanja Guglovi osnivači su razvili metod za izračunavanje značaja (PageRank) svake stranice na vebu.^[4] PageRank veb-stranice se može kombinovati sa drugim mjerama na bazi sadržaja za indikaciju njenog sveukupnog značaja u odnosu na dati upit. Na primjer, za zadati upit x, stranica može biti rangovana na osnovu ponderisanog zbira njenih sličnosti sa upitom i njenog PageRank-a. Među stranicama sa velikim sličnostima, ovaj metod će dati prednost onima koje imaju viši PageRank.

Efektivnost i efikasnost pretrage

Za stranicu se kaže da je relevantna, ukoliko korisnik koji je izvršio upit nalazi da je korisna. Za zadati upit korisnika na fiksni skup stranica, skup onih koje su relevantne je takođe fiksan. Dobar sistem pretrage treba korisniku da vrati visok stepen relevantnih stranica kao i da ih ranguje visoko u povratnim rezultatima. Tradicionalno, efektivnost sistema pretrage se mjeri preko dva količnika poznata kao odziv i preciznost. Kod upita u skup dokumenata x, odziv je procenat relevantnih dokumenata koji se na upit odzivaju, a preciznost je procenat odzvanih dokumenata koji su za upit relevantni. Da bi se ocijenila efektivnost jednog sistema pretrage, vrše se probe nizom upita. Za svaki poseban upit, skup relevantnih dokumenata se identifikuje unaprijed. Kod svakog probnog upita traži se vrijednost preciznosti za svaku tačku odziva ponaosob. Kada se napravi jedna prosječna vrijednost preciznosti za svaku tačku odziva, onda se dobije kriva ukupne prosječne preciznosti sistema pretrage koja služi kao mjera njegove efektivnosti. Jedan sistem pretrage se smatra efektivnijim od drugog, ukoliko je njegova kriva preciznosti i odziva iznad krive drugog. Kod savršenog sistema pretrage vrijednosti odziva i preciznosti treba da budu jednake broju 1. Drugim riječima, takav sistem pronalazi tačan skup relevantnih dokumenata za svaki upit. U praksi, savršen učinak nije ostvarljiv iz mnogo razloga. Na primjer, potrebe korisnika za određenim informacijama obično ne mogu biti precizno definisane probnim upitom, ali ni sam sadržaj u dokumentima, kao ni u upitima, se ne može u potpunosti predstaviti ponderisanim pojmovima.

Upotreba odziva i preciznosti za mjerenje efektivnosti tradicionalnog sistema pretrage teksta, zahtijeva da je unaprijed poznat broj svih relevantnih dokumenata za svaki probni upit. Međutim, ovo nije praktično za ocjenjivanje i nezavisno vrednovanje velikih pretraživača, budući da je nemoguće znati broj relevantnih stranica za svaki upit u pretraživaču, ukoliko se sve one ručno ne pregledaju. Bez poznavanja broja relevantnih stranica za svaki probni upit, mjera odziva se ne može izračunati. Kao rezultat ovog praktičnog ograničenja, pretraživači se često ocjenjuju na osnovu srednje preciznosti koja se izračunava na osnovu najrelevantnijih odzvanih stranica k za skup probnih upita za neki mali cijeli broj —recimo 20, ili na osnovu prosječne pozicije prve relevantne stranice koja je povratni rezultat u svakom pojedinačnom probnom upitu.^[5]

Suština algoritama

Pretraživači veba su, u osnovi, ekspertski sistemi koji imaju za cilj stvaranje što više heuristika sposobnih za pomoć ekspertskom sistemu u predviđanju šta je to što korisnik traži.

Specijalizovani pretraživači veba

Specijalizovani pretraživači veba za svrhu imaju traženje informacija u vezi sa specifičnom oblašću.

Vidi još

Reference

^ ^a ^b Bergman, Michael K. (2001). „The Deep Web: Surfacing Hidden Value”. The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.
^ Jie Wu, Towards a Decentralized Search Architecture for the Web and P2P Systems, Pristupljeno 24. 4. 2013.
^ Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack Chapter 14 Parallel Information Retrieval Arhivirano na sajtu Wayback Machine (1. jun 2012) in Information Retrieval: Implementing and Evaluating Search Engines 2010 MIT Press
^ ^a ^b L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank Citation Ranking: Bring Order to the Web. Technical Report, Stanford University, 1998.
^ Hawking, David; Craswell, Nick; Bailey, Peter; Griffihs, Kathleen (2001). „Measuring Search Engine Quality”. Information Retrieval. 4 (1): 33—59. S2CID 14087666. doi:10.1023/A:1011468107287. hdl:1885/56355.

Spoljašnje veze

Svetski internet pretraživači

Srpski internet pretraživači

Specijalizovani internet pretraživači

[Bergman-1] Bergman, Michael K. (2001). „The Deep Web: Surfacing Hidden Value”. The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.

[Wu-2] Jie Wu, Towards a Decentralized Search Architecture for the Web and P2P Systems, Pristupljeno 24. 4. 2013.

[Büttcher-3] Stefan Büttcher, Charles L. A. Clarke and Gordon V. Cormack Chapter 14 Parallel Information Retrieval Arhivirano na sajtu Wayback Machine (1. jun 2012) in Information Retrieval: Implementing and Evaluating Search Engines 2010 MIT Press

[Page_at_al-4] L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank Citation Ranking: Bring Order to the Web. Technical Report, Stanford University, 1998.

[Hawikng_at_al-5] Hawking, David; Craswell, Nick; Bailey, Peter; Griffihs, Kathleen (2001). „Measuring Search Engine Quality”. Information Retrieval. 4 (1): 33—59. S2CID 14087666. doi:10.1023/A:1011468107287. hdl:1885/56355.

[1]

[2]

[3]

[4]

[5]