robots.txt Nedir? Arama Motoru Botlarının Yol Haritası
Web siteleri, arama motorlarının internetteki varlıklarını keşfetmesi ve dizine eklemesi sayesinde geniş kitlelere ulaşır. Bu keşif sürecinde, arama motorları web sitelerini tarayan yazılımları, yani robotları veya botları (örneğin Googlebot) kullanır. İşte bu botlara web sitenizde nereye gidip nereye gitmemeleri gerektiğini söyleyen basit bir metin dosyasına robots.txt denir. Genellikle bir web sitesinin kök dizininde (siteadi.com/robots.txt
adresinde) bulunur ve site sahiplerinin arama motoru tarayıcılarını kontrol etmelerine olanak tanır. Bir nevi, sitenizin botlara verdiği bir “ziyaretçi rehberi” veya “yol haritası” gibidir.
robots.txt’nin Amacı ve Temel Mantığı
robots.txt dosyasının temel amacı, web sitesinin sunucu yükünü azaltmak ve hangi içeriğin arama motorları tarafından taranıp dizine eklenmeyeceğini belirterek sitenin SEO (Arama Motoru Optimizasyonu) performansını dolaylı olarak etkilemektir.
Temel Fonksiyonları:
- Tarama Kontrolü (Crawling Control): robots.txt, botlara sitenizin hangi dizinlerini veya dosyalarını tarayabileceklerini (allow) ve hangilerini taramayacaklarını (disallow) söyler. Bu, botların gereksiz veya hassas sayfalara erişmesini engellemeye yardımcı olur.
- Sunucu Yükünü Azaltma: Özellikle büyük sitelerde, botlar sitenin her sayfasını taramaya çalışırsa sunucuya önemli bir yük bindirebilir. robots.txt ile, önemsiz veya zamanla değişen sayfaların (örn: kullanıcı profilleri, arama sonuç sayfaları, sepet sayfaları) taranması engellenerek sunucu kaynakları daha verimli kullanılır.
- Dizin Oluşturmayı Dolaylı Etkileme: Bir sayfanın taranmasının engellenmesi, o sayfanın genellikle arama motoru dizinine eklenmemesiyle sonuçlanır. Bu, hassas veya düşük kaliteli içeriğin arama sonuçlarında görünmesini engellemek için kullanılabilir. Ancak, önemli bir not: robots.txt dizin oluşturmayı garanti etmez. Bir sayfa başka sitelerden bağlantı alıyorsa, arama motorları o sayfayı taramasa bile dizine ekleyebilir. Tamamen dizinden çıkarmak için
<meta name="robots" content="noindex">
etiketi veya HTTP X-Robots-Tag başlığı kullanılmalıdır. - Site Haritası Konumunu Belirtme: robots.txt dosyası, bir veya daha fazla XML site haritasının (Sitemap) URL’ini belirterek arama motorlarının sitenizdeki tüm önemli sayfaları daha kolay bulmasına yardımcı olur.
robots.txt’nin Yapısı ve Komutları
Bir robots.txt dosyası, basit metin komutlarından oluşur. Her komut, hangi kullanıcı aracısı (User-agent) için geçerli olduğunu ve neye izin verilip neye verilmediğini belirtir.
Temel Komutlar:
- User-agent: Bu komut, aşağıdaki yönergelerin hangi arama motoru botu için geçerli olduğunu belirtir.
User-agent: *
: Tüm botlar için geçerli. Bu en yaygın kullanımdır.User-agent: Googlebot
: Sadece Google’ın botu için geçerli.User-agent: Bingbot
: Sadece Bing’in botu için geçerli.User-agent: YandexBot
: Sadece Yandex’in botu için geçerli.
- Disallow: Belirtilen botun taramaması gereken dizin veya dosya yolunu belirtir.
Disallow: /
: Tüm siteyi tarama (sitenin arama motorlarında görünmesini engeller).Disallow: /wp-admin/
: WordPress yönetici panelini tarama.Disallow: /private/
:/private/
dizinini ve altındaki her şeyi tarama.Disallow: /resimler/gizli-resim.jpg
: Belirli bir dosyayı tarama.
- Allow: Disallow kuralı içinde olsa bile, belirli bir dizin veya dosyanın taranmasına izin verir. Bu, daha spesifik kontrol sağlar.
Disallow: /wp-content/
Allow: /wp-content/uploads/
:wp-content
dizininin tamamı engellenirken, sadeceuploads
alt dizinine izin verir.
- Sitemap: Site haritanızın (XML Sitemap) URL’ini belirtir. Bu, arama motorlarının sitenizdeki tüm önemli sayfaları hızlıca bulmasına yardımcı olur.
Sitemap: https://www.siteadi.com/sitemap.xml
Örnek bir robots.txt dosyası:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /tag/
Disallow: /category/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /trackback/
Disallow: /index.php
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Sitemap: https://www.siteadi.com/sitemap.xml
Yukarıdaki örnekte:
- Tüm botlara (
User-agent: *
) belirli dizinleri ve dosya türlerini taramamaları talimatı verilir. - Özellikle WordPress sitelerinde yönetim ve eklenti/tema dosyaları gibi SEO açısından önemsiz veya yinelenen içeriğin taranması engellenir.
- Ancak,
wp-admin
içinde bulunanadmin-ajax.php
gibi bazı dosyaların çalışması için izin verilir. - Son olarak, site haritasının konumu belirtilir.
robots.txt’nin Konumu ve Oluşturulması
robots.txt dosyası, her zaman bir web sitesinin kök dizininde bulunmalıdır. Yani, www.siteniz.com
için www.siteniz.com/robots.txt
adresinde erişilebilir olmalıdır. Eğer bu dosyayı bulamıyorsanız, arama motoru botları varsayılan olarak sitenizin tüm dizinlerini taramaya çalışır.
robots.txt nasıl oluşturulur/düzenlenir:
- Manuel Olarak: Boş bir metin dosyası oluşturup
.txt
uzantısıyla (yanirobots.txt
) kaydederek ve FTP veya hosting panelinizin dosya yöneticisi aracılığıyla sitenizin kök dizinine yükleyerek. - WordPress ve SEO Eklentileriyle: WordPress kullanıcıları için, Yoast SEO, Rank Math veya All in One SEO Pack gibi popüler SEO eklentileri genellikle robots.txt dosyasını düzenleme veya sanal olarak oluşturma özelliği sunar. Bu, özellikle teknik bilgisi az olan kullanıcılar için süreci çok basitleştirir.
Dikkat Edilmesi Gereken Önemli Noktalar
- robots.txt bir güvenlik aracı değildir: robots.txt, botlara sadece bir “talimat” verir, bir “zorunluluk” getirmez. Kötü niyetli botlar veya tarayıcılar robots.txt dosyasını görmezden gelebilir. Hassas veya özel verileri korumak için sunucu tarafı kimlik doğrulama, şifreleme veya
.htaccess
gibi daha güçlü güvenlik önlemleri kullanılmalıdır. - Tarama ve Dizin Oluşturma Farkı: Bir sayfanın robots.txt ile taranması engellense bile, o sayfa başka bir yerden (örneğin başka bir web sitesinden) bağlantı alıyorsa, arama motorları tarafından dizine eklenebilir ancak içeriği hakkında bilgi edinilemez. Tamamen dizinden çıkarmak için meta
noindex
etiketi veya HTTP X-Robots-Tag kullanılmalıdır. - Sözdizimi Hatası: robots.txt dosyasındaki sözdizimi hataları, arama motorlarının sitenizi yanlış taramasına veya hiç taramamasına neden olabilir. Google Search Console gibi araçlar, robots.txt dosyanızı test etmenize olanak tanır.
- robots.txt dosyanız yoksa: Botlar sitenizin her yerini varsayılan olarak taramaya çalışacaktır. Bu, küçük siteler için genellikle sorun teşkil etmezken, büyük sitelerde gereksiz sunucu yüküne neden olabilir.
Sonuç
robots.txt, arama motoru botlarıyla iletişim kurmanın ve sitenizin tarama davranışını yönetmenin temel bir yoludur. Doğru yapılandırıldığında, sunucu kaynaklarını korur, arama motorlarının sitenizi daha verimli bir şekilde anlamasına yardımcı olur ve arama sonuçlarında hangi içeriğinizin görünmesini istediğinizi belirlemenize olanak tanır. Her web sitesinin doğru bir robots.txt dosyasına sahip olması, etkili bir SEO stratejisinin ve sağlıklı bir web varlığının ayrılmaz bir parçasıdır.