Standard isključenja robota

Standard isključenja robota (енгл. Robots Exclusion Standard) je datoteka (robots.txt) za definisanje ograničenja pristupa robota sadržaju http-servera. Datoteka se postavlja na putanju ime_sajta/robots.txt, odnosno u osnovi sajta. Ako postoji više poddomena, svaki mora da ima po jednu ovakvu datoteku. Datoteka predstavalja standard Sitemaps, sa suprotnom ciljem: da olakša pristup robotima.

Istorija

Martin Koster je izmislio "robots.txt" dok je radio za Nexor a zatim WebClawler 1994. "robots.txt" postaje popularan sa pojavom AltaVista i drugih zvaničnih pretrazivača narednih godina.

O standardu

Kada vlasnik Web sajta želi da da instrukcije web robotima, on postavlja tekstualnu datoteku robots.txt u korenu hijerarhije sajta (npr. https://web.archive.org/web/20131003131931/http://www.example.com/robots.txt). Ovaj text fajl sadrži instrukcije u određenom obliku. Roboti koji izvršavaju instrukcije će pokusati da preuzmu ovaj fajl i pročitaju instrukcije pre preuzimanja bilo kog drugog fajla sa sajta. Ako ova datoteka ne postoji, web roboti će podrazumevati da vlasnik sajta ne zahteva da se izvrše nikakve posebne instrukcije i popisuje ceo sajt. robots.txt file će predstavljati zahtev kojim se traži od robota da ignoriše odredjene fajlove ili imenike dok pretražuje sajt. Takav zahtev može biti npr. davanje privatnosti rezultatima pretrage, odnosno pretpostavka da bi sadržaj izabranih direktorijuma mogao da bude pogrešan ili irelevantan za kategorizaciju čitavog sajta ili potreba da neka aplikacija radi samo nad odredjenim podacima. Linkovi ka stranama koje su navedene u robots.txt i dalje mogu da se pojavljuju u rezultatima pretrage ukoliko su povezane sa stranama koje su popisane. Neki glavni pretraživači koriste ovaj standard, kao što su AOL (powered by Google), Baidu, Bing, Google,Yahoo! (powered by Bing)i Yandex.

Nedostaci

Uprkos upotrebi termina "allow" i "disallow", protokol ipak nije toliko striktan. Oslanja se na saradnju web robota, pa obeležavanje oblasti sajta, bez robots.txt ne garantuje isključenje svih web robota. Konkretno, zlonamerni roboti su loša odlika robots.txt, neki čak i ako koriste robots.txt kao instrukcije, upadaju na nedozvoljeni URL.

I ako je od bilo koga moguće sprečiti pretragu direktorijuma uključujući i od web robota podešavanjem bezbednosti servera, kada se onemogućene direktive nalaze u robots.txt fajlu, informacija o postojanju ovih direktiva je svima dostupna.

Informacije koje navode delove kojima ne bi trebalo da se pristupa se navode u fajlu robots.txt u direktorijumu najvišeg nivoa na sajtu. robots.txt uzorci su upareni jednostavnim poredjenjem niski, pa treba voditi računa i proveriti da li obrasci odgovaraju direktorijumima koji kao poslednji karakter imaju '/', inače sve datoteke čija imena počinju sa datim uzorkom će odgovarati čak i one za koje uzorak nije namenjen.

Alternative

Mnogi roboti postavljaju posebnog user-agent-a pri preuzimanju sadržaja. Web administrator takodje može da konfiguriše server da automatski vrati grešku ili prenese alternativni sadržaj kada otkrije da konekciju koristi jedan od robota.

Primeri

Zabrana pristupa svim robotima celom sajtu:

User-agent: *
Disallow:

Zabrana prisupa robotima odredjenom katalogu/private/ :

User-agent: googlebot
Disallow: /private/

Nestandardna direktiva

Crawl-delay

Odredjuju vreme za koje robot mora da se zadržava izmedju stranica. Ako će robot preuzimati jako često stranice, to može stvoriti opterećenje servera. Mada moderni pretrazivaći računara automatski podrazumevaju zadržavanje jednu do dve sekunde na stranici.

User-agent: *
Crawl-delay: 10

Allow

Ima obrnuto dejstvo od direktive Dissalow-dozvoljava pristup odredjenom delu resursa. Podržava sve savremene pretraživače.U sledećem primeru se dozvoljava pristup fajlu photo.html a pristup pretraživača ka svim ostalim informacijama u katalogu/album1/ se zabranjuje.

 Allow: /album1/photo.html
 Disallow: /album1/

Prošireni standard

Godine 1996. je predložen proširen standard robots.txt koji u sebi uključuje direktive kao što su Request-rate и Visit-time.

 User-agent: *
 Disallow: /downloads/
 Request-rate: 1/5         # ne preuzimati(otvarati) više od jedne stranice 5sekundi
 Visit-time: 0600-0845 	   # preuzimati stranice samo u periodu od 6 ujutru do 8:45

Spoljašnje veze

Reference

"Historical". Greenhills.co.uk. Archived from the original on 2017-04-03. Retrieved 2017-03-03.
Fielding, Roy (1994). "Maintaining Distributed Hypertext Infostructures: Welcome to MOMspider's Web" (PostScript). First International Conference on the World Wide Web. Geneva. Archived from the original on 2013-09-27. Retrieved September 25, 2013.
"The Web Robots Pages". Robotstxt.org. 1994-06-30. Archived from the original on 2014-01-12. Retrieved 2013-12-29.
Koster, Martijn (25 February 1994). "Important: Spiders, Robots and Web Wanderers". www-talk mailing list. Archived from the original (Hypermailarchived message) on October 29, 2013.
"How I got here in the end, part five: "things can only get better!". Charlie's Diary. 19 June 2006. Archived from the original on 2013-11-25. Retrieved 19 April 2014.