Robots.txt Nedir, Nasıl Oluşturulur?

Robots.txt Nedir, Nasıl Oluşturulur?
0

Web sitelerin  açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.  Robot mail grubu olan robots-request@nexor.co.uk üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden doğmuştur. Kullanılması zorunlu değildir. Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olmasına rağmen, web robotlarının bu protokolün uygulamasına ihtiyaçları vardır.

Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini (göz ardı etmesini) talep eder. Böylece istemediğiniz içerikler index almaz ve arama motorlarında çıkmamış olur.

Bazı Hazır Kullanım Yöntemleri

Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; ” * ” yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.

Kod-1

User-agent: *
Disallow:
Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; ” * ” yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.
Kod-2
User-agent: *
Disallow: /

Bütün robotların, site üzerindeki hiçbir dosyayı taramamasının istendiği örnek;

Kod-3

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Bütün robotlar, site üzerindeki yukarıdaki 4 klasörün içeriğini indekslememeli;

Kod-4

User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir.
Disallow: /private/

İsmi verilen robot, site üzerindeki ismi verilen klasörün (private klasörü)  içeriğini indekslememeli;

Kod-5

User-agent: *
Disallow: /directory/file.html

Bütün robotlar, site üzerindeki yukarıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.

Kod-6

User-agent: *
Disallow: /a

Yukarıda a harfi ile başlayan içeriklerin tümü engellenmiştir.

Bu kullanımda siteadi.com/a içeriğinin yanısıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.

Kod-7

# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir.
User-agent: * # bütün botları kapsasın
Disallow: / # bütün botları uzak tutsun

Yukarıda Kod içinde yorum yazılan örnekleme gösterilmiştir.

Standart Dışı Kullanımlar

Kod-8

User-agent: *
Crawl-delay: 10

Çoğu büyük web arama botları geciktirme komutunu destekler.
Örneğin Yukarıdaki örnekte ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır

Kod-9

Allow: /folder1/myfile.html
Disallow: /folder1/

İzin Ver komutu

Bazı büyük botlar, Allow ( izin ver ) komutu kullanarak Disallow ( kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt’nin ilk satırı uygulamaya konulabilir. Fakat Google’ın uygulamasında önce tüm Allow ( izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Yukarıdaki örnekte bu kanuna örnek verilmiştir.

Geliştirilmiş Üst Düzey Komutlar

Kod-10

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # her 5 saniyede maksimum 1 sayfa
Visit-time: 0600-0845     # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi

Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.
Kod-11

User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /gizli/
User-agent: Msnbot

Yukarıdaki kod ile  Tüm arama motorları sitemizi kaydetsin. Ama Google ile Msn birer klasör kaydetmesin istiyoruz.

 

Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_end_m
    BEĞENDİM
  • 0
    alki_
    ALKIŞ
  • 0
    _a_kin
    ŞAŞKIN
  • 0
    k_t_
    KÖTÜ
  • 0
    berbat
    BERBAT

1984 İzmit'te doğdu Konya Selçuk Üniversitesi ve Eskişehir Anadolu Üniversitesi mezunu. Network Dizayn kurucusu ve editörü. Server altyapısını kuran ve düzenleyen kişi. Gerçek bir teknoloji bağımlısı olan Fatih, ayrıca oyun dünyası ve film sektörüne de ilgili.

Yazarın Profili
İlginizi Çekebilir

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir