Web sitelerin açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar. Robot mail grubu olan robots-request@nexor.co.uk üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden doğmuştur. Kullanılması zorunlu değildir. Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olmasına rağmen, web robotlarının bu protokolün uygulamasına ihtiyaçları vardır.
Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini (göz ardı etmesini) talep eder. Böylece istemediğiniz içerikler index almaz ve arama motorlarında çıkmamış olur.
Bazı Hazır Kullanım Yöntemleri
Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; ” * ” yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.
Kod-1
User-agent: * Disallow:
User-agent: * Disallow: /
Bütün robotların, site üzerindeki hiçbir dosyayı taramamasının istendiği örnek;
Kod-3
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Bütün robotlar, site üzerindeki yukarıdaki 4 klasörün içeriğini indekslememeli;
Kod-4
User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir. Disallow: /private/
İsmi verilen robot, site üzerindeki ismi verilen klasörün (private klasörü) içeriğini indekslememeli;
Kod-5
User-agent: * Disallow: /directory/file.html
Bütün robotlar, site üzerindeki yukarıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.
Kod-6
User-agent: * Disallow: /a
Yukarıda a harfi ile başlayan içeriklerin tümü engellenmiştir.
Bu kullanımda siteadi.com/a içeriğinin yanısıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.
Kod-7
# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir. User-agent: * # bütün botları kapsasın Disallow: / # bütün botları uzak tutsun
Yukarıda Kod içinde yorum yazılan örnekleme gösterilmiştir.
Standart Dışı Kullanımlar
Kod-8
User-agent: * Crawl-delay: 10
Çoğu büyük web arama botları geciktirme komutunu destekler.
Örneğin Yukarıdaki örnekte ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır
Kod-9
Allow: /folder1/myfile.html Disallow: /folder1/
İzin Ver komutu
Bazı büyük botlar, Allow ( izin ver ) komutu kullanarak Disallow ( kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt’nin ilk satırı uygulamaya konulabilir. Fakat Google’ın uygulamasında önce tüm Allow ( izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Yukarıdaki örnekte bu kanuna örnek verilmiştir.
Geliştirilmiş Üst Düzey Komutlar
Kod-10
User-agent: * Disallow: /downloads/ Request-rate: 1/5 # her 5 saniyede maksimum 1 sayfa Visit-time: 0600-0845 # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi
Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.
Kod-11
User-agent: * Disallow: User-agent: Googlebot Disallow: /gizli/ User-agent: Msnbot
Yukarıdaki kod ile Tüm arama motorları sitemizi kaydetsin. Ama Google ile Msn birer klasör kaydetmesin istiyoruz.