Robots.txt dosyası ile arama motorlarının hangi sayfaları veri tabanlarına kaydetmeyeceği bildirilir. Örneğin sitenize bir sayfa gönderdiniz ama bu sayfanın arama sonuçlarında çıkmasını, arama motorlarında görünmesini istemiyorsanız, bunu robots.txt dosyasını düzenleyerek yapabilirsiniz. Böylece arama motoru örümcekleri sitenize geldiği zaman önce robots.txt dosyasına bakar. Bu dosyaya bakarak hangi sayfaları dolaşacağını, hangi sayfaları dolaşmayacağını öğrenir. Robots.txt dosyası sitenizin kök klasörüne yani index.html sayfasının yanına gönderilmelidir.
Eğer sitenizdeki sayfaların tamamının arama motoru veritabanına kaydedilmesini istiyorsanız notepad ile boş bir text dosyası açın ve şunları yazın.
Burada User-agent arama motoru örümceğini belirtir. Mesajın hangi arama motoru örümceği için geçerli olduğunu belirtir. Yanındaki * işareti ise tamamı anlamına gelir. Yani User-agent: * komutu, robots.txt dosyasındaki yazılı komutların bütün arama motoru örümcekleri için geçerli olduğunu belirtir. Daha iyi anlamak için Google’nin örümceği olan Googlebot ile MSN arama motoru örümceği olan Msnbot için ayrı ayrı komutlar girelim.
Yukarıda görüldüğü gibi iki farklı örümceğe farklı görevler verdik. Googlebot’dan sonra gelen disallow bölümü boş oluğu için sitemizin tüm sayfaları google veritabanına kaydedilir. Ancak Msnbot’dan sonra gelen disallow komutuna /gizli.html yazdık. Yani Msnbot sitemize uğradığı zaman gizli.html sayfasına girmeyecek ve bu sayfayı veritabanına eklemeyecek.
Şimdi disallow komutuna daha detaylı bakalım ve bir kaç örnekle bilgilerimizi pekiştirelim. Eğer sayfaların kaydedilmesini engellemek istiyorsak Disallow komutu yanına “/” işareti koyarak sayfanın adını yazmamız gerekir. Eğer bir klasörün içindeki bütün sayfaları engellemek istiyorsak Disallow: /engellenenklasor/ şeklinde komut eklememiz gerekir. Eğer sitenin tamamen kaydedilmesini engellemek istiyorsak disallow komutu yerine sadece “/”koymamız gerekir. Şimdi örneklerle tekrar edelim.
Bir sayfanın kaydedilmemesini istiyorsak:
Birden fazla sayfanın kaydedilmemesini istiyorsak ek disallow komutu ekleriz:
Sitenin tamamının kaydedilmemesini istiyorsak:
Sitedeki bir klasörün kaydedilmemesini istiyorsak:
Sitemizdeki iki klasör ve bir sayfanın kaydedilmemesini istiyorsak:
Şimdi biraz da User-agent komutu ile oynayarak örnekler verelim. Sitemizi msnbot’un kaydetmemesini ama diğer arama motorlarının kaydetmesini sağlayalım:
Tüm arama motorları sitemizi kaydetsin. Ama Google ile Msn birer klasör kaydetmesin istiyorsak:
Bütün olasılıkları değerlendirerek robots.txt dosyaları oluşturduk. Eğer sitenizde engellemek istediğiniz sayfa veya klasör varsa bu komutlardan uygun olanını kendi sitenize göre ayarlayın ve notepad ile boş bir txt dosyası açarak bu komutları yazın. Daha sonra bu dosyayı sitenizin ana klasörüne yani sitenizdeki index.html sayfasının olduğu klasöre gönderin.
Eğer engellemek istediğiniz sayfa daha önce arama motorları tarafından kaydedildiyse, robots.txt dosyasını gönderdikten bir süre sonra silinecektir. Ama bu süre 1-2 ay gibi bir zaman olabilir.
