Adnan Güney abimle beraber güzel bir paylaşımda bulunalım dedik ve beraberce bu yazılyı sizlerle paylaşıp bilgimizi tazeliyelim istedik. Öncelikle Google arama motorundan hatalı web sayfaları kaldırmak sitemiz için önemlidir.Sitenizi içeriğini yeni bir domaine taşıdınız ve eski sitenizde de farklı sayfalara yer veriyorsunuz veya bazı sayfaları sildiğimizi düşünelim. Bunu biz yaptık ancak Arama Örümcekleri belli aralıklarla sayfamızı ziyaret edip içerikleri indeksler. Eğer önceden indekse alınmış sayfa bulunamıyorsa bunları hepsi kayıt altına alınır hatta sunucunuz hizmet kesintisi oluşturduysa tüm sitenizin sayfalarına da ulaşamayacaktır. 404 olarak isimlendirilen bu hata sitenizin arama sonuçlarında gerilere düşmesine neden olur. Google web yöneticisi araçlarında web üzerinde siteniz üzerinden arama sorgularına baktığınızda gösterim oranlarınızın düştüğünü göreceksiniz.
URL kaldırma için Şimdi şu adımları uygulayalım.
1. Öncelikle www.google.com/webmasters/ sayfasından hesabımıza giriş yapalım. Eğer yoksa kaydımızı yaptıralım.
2. Yok olanlar için yazıyorum. Site Ekle kısmından yönetmek istediğiniz URL adresini giriyoruz.
3. Daha sonra sitenin bizim yönetimimizde olduğunu Google a belirtmek gerekiyor. Bunun için site dogrulama işlemini yapmamız gerekiyor. Bunu detaylı anlatmadan sadece web arayüzünden indireceğiniz bir dosyayı, sitenizin kök dizinine koymanız veya verilen bir html kodunu index sayfanız içinde belirtilen alanlara yapıştırmanız gerektiğini söyleyeyim. Bu işlemlerden sonra adımlara devam edip site dogrulama yı tıklatmamız yeterli.
4. Kontrol paneli > Tanılamalar > Tarama hataları kısmında kısmında DNS , Sunucu Bağlantı ve Robots.txt Getirme ile ilgili bir sıkıntı olmadığını ama 697 adet erişilemeyen sayfa olduğunu görüyorum. Bu ekran görüntüsünün altında ilgili URL adları listelenmiş durumda. Bunları tek tek tıklatığınızda hata ayrıntılarını, sitemap haritası içinde olup olmadığını ve bu sayfanın dahili ve harici linklerini göreceksiniz.
5. Yine bu sayfada indirme butonunu tıklatarak tüm sayfaları Excel sayfasına alıyoruz. CrawlErrorsList_siteadı.xlsx veya .xls şeklinde bir dosya oluşacaktır.
6. Bu dosya üzerinde bazı formüller ile dosya adını net olarak elde edelim. E sutununda yazan bilgileri alıp hepsini web site kökünde yer alan Robots.txt dosyasına yapıştıralım. Bu formülleri sırası ile B1,C1,D1 VE E2 alanarına yazıp, alt satırlara kopyalıyoruz. Bu işlem çok fazla URL hatası alan siteler için kolaylık sağlayacaktır. Eğer hata sayınız fazla değilse excel işlemini atlayabilirsiniz.
7. Robots.txt ye Disallow olarak URL ekleme
8. URL kaldırma isteğinde bulunma
Site yapılandırma> Tarayıcı erişimi üzerinden URL’leri kaldır sekmesine gelip, Excelde D sütundaki alanları tek tek yapıştırıp, sayfa arama sonuçlarından ve bellekten kaldırmak için istekte bulunuyoruz. Excel den Web Gezgini arayüzüne veya tam tersi geçişlerde SHIFT + ALT kombinasyon ile tuşlara basarsanız sayfalar arasında hızlı geçiş sağlarsınız. Bu özellikle çok fazla URL sayfası hatası durumunda kolaylık sağlar.
9. Tüm bu işlemler tamamladığında Tanılamalar> Tarama Hataları sekmesinde tüm hatalı URL leri seçip Düzeltildi olarak olarak işaretleyelim. Gösterim satırına kadar seçme yapabileceğinizden bu işlemleri Göster satır 500 şeklinde işaretleyip tüm sayfalarınız için yapmanız gerektiği hatırlatayım.
Sonuç ;Bir sonraki boot taramasında tüm 404 URL hataları sıfırlanacaktır. Arama sorgularından sitenizin gösterim sayısının artığını gözlemleyebilirsiniz.
Robots.txt ile ilgili bir kaç ipucu:
Eğer robots.txt de bir problem olduğunu düşünüyorsanız ;
Google ve Diğer Arama Motorları Robots.txt dosyasını UFT-8 formatında olmasını tercih eder. Bazen PHP işlemleri ile oluşturulan dosyalarda UFT-8 formatı BOM denilen Byte Order Mark ï »¿ işareti dosyanın başına eklenir, bu dosyanın Unicode yani evrensel bir karekter seti gösterdiğini belirtir. Robots.txt BOM içermeyecek şekilde oluşturulmalıdır. Notepad++ gibi bir arayüz ile robots.txt dosyasını açın ve UFT BOM dönüştür seçeneği ile kaydedin. Gereksiz boş satırları silin. Resmi formata göre sitemaptan önce Allow: / kullanmak tavsiye edilir.
Bir başka nokta Boot sitenizi haritanız doğrultusunda hemen indekslemeyebilir sabır gösterip beklemelisiniz. Ben 3-4 gün içersinde kısmi olarak indekslemenin başlayacağını düşünüyorum. Kalıcı bağlantınızın formatına bağlı olarak yani / sonlandırma kullandıysanız “Bir dizin olarak algılandı; belirli dosyaların farklı kısıtlamaları olabilir” uyarısı sayfanızın indekslenmeyeceği anlamında değildir.
Başka bir nokta ;
User-agent: * Disallow: /
sitenin tamamı Boot motorları tarafından engellenir. Eğer sadece
User-agent: * Disallow:
yazdığımızda yani / kullanmaz isek bu Allow: veya Allow: / yazılımlarına eşdeğerdir. Boot lar siteye erişebilir.
- Bir kuralın tüm dosyaları ve dizinleri etkilemesini istiyorsak / kullanalım.
- Dosyaları veya dizinleri ayrı ayrı belirtmek için
/dizi/dosya.html /dizi/ornek/