Fajl robots.txt i optimizacija web prezentacije

 In Blog

Web roboti (iliti web pauci, Web Robots, Web Wanderers, Crawlers, Spiders) su programi koji samostalno obilaze internet prezentacije. Sistemi za pretraživanje interneta (kao sto su Google, Yahoo, Bing i drugi), ali i sistemi sa Spamovanje (slanje neželjenih email poruka) koriste ovakve sisteme da indeksiraju sadržaj internet prezentacija, tragaju za linkovima ka drugim internet sajtovima, ali i email adresama (to naravno najviše rade sistemi za spamovanje). Plus naravno neke druge funkcije o kojima ćemo razgovarati neki drugi put.

Osim linkova ka drugim stranicama, Web roboti očitavaju i posebne fajlove, koji standardno imaju naziv robots.txt. Sadržaj tog fajla web robotu (ali “poštenom” web robotu, koji ne služi za otkrivanje email adresa i naknadno spamovanje) daje instrukcije kako da se ponaša, i koje direktorijume da pretražuje i na koji način. Web robot, praktično, pre nego što očita sadržaj osnovnog fajla (index.html, index.php ili index.aspx), očitava sadržaj robots.txt fajla.

Sve ovo dovodi do zaključka da je robots.txt fajl na koji bi trebalo da obratimo pažnju prilikom kreiranja internet prezentacija, jer pravilno kreiranje ovog fajla može samo da olakša robotu da omogući kvalitetnije indeksiranje internet prezentacije, i samim tim da je bolje rangira na internet pretraživačima.

Fajl robots.txt treba da se nalazi u osnovnom direktorijumu internet sajta. Kao što smo naveli, koriste ga internet pretraživači, da ne bi indeksirali nepotreban i neželjen sadržaj internet prezentacije koju razvijate. Na taj način obezbeđujete da se internet prezenatacija ne indeksira po uslovima koji su nepotrebni.

Sadržaj jednog robots.txt fajla ima sledeću formu:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images-working/
Disallow: /test/
Disallow: /privremeni-fajlovi/
Disallow: /tmp/
Disallow: /radna-verzija/

Prva linija, User-agent, određuje na koji web robot se odnose direktive navedene u sledećim redovima. U ovom slučaju, znak zvezdica, označava da se fajl odnosi za sve robote (pretraživače). Ostale linije govore web robotu, koje direktorijume da ignoriše prilikom indeksiranja sajta.

 

Sadržaj robots.txt fajla može da ima i sledeći oblik:

User-agent: *
Disallow: /~nik/junk.html
Disallow: /~nik/foo.html
Disallow: /~nik/bar.html

U ovom slučaju, robot neće indeksirati navedene fajlove.

Još jedan primer bi izgledao ovako:

User-agent: googlebot
User-agent: msnbot
User-agent: teoma
Disallow: /radna-verzija/
Disallow: /radne-slike/

User-agent: *

Disallow: /temp/

U ovom primeru, nalaze se direkcije za različite web robote, koji pripadaju različitim web pretraživačima.

Na kraju da spomenem da fajlom robots.txt nećete zaustaviti zlonamerne robote koji indeksiraju vaš sajt, jer oni uglavnom ignorišu njegov sadržaj. Praktično nema sigurnog 100% rešenja na koji bismo mogli da utičemo na “zlonamerne” robote koji indeksiraju sadržaj internet prezentacije.

Recommended Posts

Leave a Comment