Стандард искључења робота

Standard isključenja robota (енгл. Robots Exclusion Standard) је датотека (роботс.тxт) за дефинисање ограничења приступа робота садржају хттп-сервера. Датотека се поставља на путању име_сајта/роботс.тxт, односно у основи сајта. Ако постоји више поддомена, сваки мора да има по једну овакву датотеку. Датотека представаља стандард Ситемапс, са супротном циљем: да олакша приступ роботима.

Историја уреди

Мартин Костер је измислио "роботс.тxт" док је радио за Неxор а затим WебЦлаwлер 1994. "роботс.тxт" постаје популаран са појавом АлтаВиста и других званичних претразивача наредних година.

О стандарду уреди

Када власник Wеб сајта жели да да инструкције wеб роботима, он поставља текстуалну датотеку роботс.тxт у корену хијерархије сајта (нпр. https://web.archive.org/web/20131003131931/http://www.example.com/robots.txt). Овај теxт фајл садржи инструкције у одређеном облику. Роботи који извршавају инструкције ће покусати да преузму овај фајл и прочитају инструкције пре преузимања било ког другог фајла са сајта. Ако ова датотека не постоји, wеб роботи ће подразумевати да власник сајта не захтева да се изврше никакве посебне инструкције и пописује цео сајт. роботс.тxт филе ће представљати захтев којим се тражи од робота да игнорише одредјене фајлове или именике док претражује сајт. Такав захтев може бити нпр. давање приватности резултатима претраге, односно претпоставка да би садржај изабраних директоријума могао да буде погрешан или ирелевантан за категоризацију читавог сајта или потреба да нека апликација ради само над одредјеним подацима. Линкови ка странама које су наведене у роботс.тxт и даље могу да се појављују у резултатима претраге уколико су повезане са странама које су пописане. Неки главни претраживачи користе овај стандард, као што су АОЛ (поwеред бy Гоогле), Баиду, Бинг, Гоогле,Yахоо! (поwеред бy Бинг)и Yандеx.

Недостаци уреди

Упркос употреби термина "аллоw" и "дисаллоw", протокол ипак није толико стриктан. Ослања се на сарадњу wеб робота, па обележавање области сајта, без роботс.тxт не гарантује искључење свих wеб робота. Конкретно, злонамерни роботи су лоша одлика роботс.тxт, неки чак и ако користе роботс.тxт као инструкције, упадају на недозвољени УРЛ.

I ако је од било кога могуће спречити претрагу директоријума укључујући и од wеб робота подешавањем безбедности сервера, када се онемогућене директиве налазе у роботс.тxт фајлу, информација о постојању ових директива је свима доступна.

Информације које наводе делове којима не би требало да се приступа се наводе у фајлу роботс.тxт у директоријуму највишег нивоа на сајту. роботс.тxт узорци су упарени једноставним поредјењем ниски, па треба водити рачуна и проверити да ли обрасци одговарају директоријумима који као последњи карактер имају '/', иначе све датотеке чија имена почињу са датим узорком ће одговарати чак и оне за које узорак није намењен.

Алтернативе уреди

Многи роботи постављају посебног усер-агент-а при преузимању садржаја. Wеб администратор такодје може да конфигурише сервер да аутоматски врати грешку или пренесе алтернативни садржај када открије да конекцију користи један од робота.

Примери уреди

Забрана приступа свим роботима целом сајту:

User-agent: *
Disallow:

Забрана присупа роботима одредјеном каталогу/привате/ :

User-agent: googlebot
Disallow: /private/

Нестандардна директива уреди

Цраwл-делаy уреди

Одредјују време за које робот мора да се задржава измедју страница. Ако ће робот преузимати јако често странице, то може створити оптерећење сервера. Мада модерни претразиваћи рачунара аутоматски подразумевају задржавање једну до две секунде на страници.

User-agent: *
Crawl-delay: 10

Аллоw уреди

Има обрнуто дејство од директиве Диссалоw-дозвољава приступ одредјеном делу ресурса. Подржава све савремене претраживаче.У следећем примеру се дозвољава приступ фајлу пхото.хтмл а приступ претраживача ка свим осталим информацијама у каталогу/албум1/ се забрањује.

 Allow: /album1/photo.html
 Disallow: /album1/

Проширени стандард уреди

Године 1996. је предложен проширен стандард роботс.тxт који у себи укључује директиве као што су Реqуест-рате и Висит-тиме.

 User-agent: *
 Disallow: /downloads/
 Request-rate: 1/5         # ne preuzimati(otvarati) više od jedne stranice 5sekundi
 Visit-time: 0600-0845 	   # preuzimati stranice samo u periodu od 6 ujutru do 8:45

Спољашње везе уреди

Референце уреди

  1. "Хисторицал". Греенхиллс.цо.ук. Арцхивед фром тхе оригинал он 2017-04-03. Ретриевед 2017-03-03.
  2. Фиелдинг, Роy (1994). "Маинтаининг Дистрибутед Хyпертеxт Инфоструцтурес: Wелцоме то МОМспидер'с Wеб" (ПостСцрипт). Фирст Интернатионал Цонференце он тхе Wорлд Wиде Wеб. Генева. Арцхивед фром тхе оригинал он 2013-09-27. Ретриевед Септембер 25, 2013.
  3. "Тхе Wеб Роботс Пагес". Роботстxт.орг. 1994-06-30. Арцхивед фром тхе оригинал он 2014-01-12. Ретриевед 2013-12-29.
  4. Костер, Мартијн (25 Фебруарy 1994). "Импортант: Спидерс, Роботс анд Wеб Wандерерс". www-талк маилинг лист. Арцхивед фром тхе оригинал (Хyпермаиларцхивед мессаге) он Оцтобер 29, 2013.
  5. "Хоw I гот хере ин тхе енд, парт фиве: "тхингс цан онлy гет беттер!". Цхарлие'с Диарy. 19 Јуне 2006. Арцхивед фром тхе оригинал он 2013-11-25. Ретриевед 19 Април 2014.