AI Crawler’lar Sitenizi Nasıl Okuyor? Robots.txt’te GPTBot, ClaudeBot, PerplexityBot İzinleri Rehberi
Pixenon Büyüme Ajansı
Yapay zeka destekli arama ve sohbet asistanları, internetin nasıl keşfedildiğini köklü biçimde değiştiriyor. Kullanıcılar artık sadece Google’a değil; ChatGPT’ye, Claude’a, Perplexity’ye soru sorup doğrudan cevap alıyor. Bu cevapların büyük kısmı, sitenizin içeriğini tarayan “AI crawler” (yapay zeka tarayıcısı) botlar sayesinde üretiliyor.
Sorun şu ki, çoğu site sahibi bu botların kim olduğunu, ne yaptığını ve robots.txt dosyasında nasıl yönetilmesi gerektiğini bilmiyor. Pixenon büyüme ajansı olarak, kurucumuz Kenan Ayvataş’ın liderliğinde yürüttüğümüz teknik SEO ve AI görünürlük projelerinde, robots.txt dosyasındaki tek bir satırın sitenin yapay zeka cevaplarında hiç görünmemesine veya tam tersi, büyük bir trafik kaynağı haline gelmesine yol açtığını defalarca gördük.
Bu rehberde, AI crawler’ların sitenizi nasıl okuduğunu, hangi botların var olduğunu ve robots.txt’i nasıl yapılandırmanız gerektiğini detaylı şekilde ele alıyoruz.
AI Crawler Nedir, Neden Önemli?
AI crawler, bir yapay zeka şirketinin web sayfalarınızı otomatik olarak ziyaret edip içeriğini okuyan bot yazılımıdır. Bu botlar iki temel amaçla çalışır: birincisi modellerin eğitimi için veri toplamak, ikincisi ise kullanıcı bir soru sorduğunda gerçek zamanlı olarak web’de arama yapıp güncel bilgiyi modele aktarmak. Bu ikinci kategori, “search-time” veya “retrieval” botlar olarak adlandırılır ve doğrudan AI cevaplarında sitenize atıfta bulunulmasını (citation) sağlar.
Geleneksel SEO’da Googlebot’u engellemek “intihar” anlamına gelir; çünkü site aramada hiç görünmez. Aynı mantık, artık AI crawler’lar için de geçerli hale geliyor. Eğer ClaudeBot, GPTBot veya PerplexityBot sitenizi tarayamıyorsa, kullanıcı Claude’a veya ChatGPT’ye “bu konuda en iyi ajans hangisi” diye sorduğunda sizin markanız cevapta yer almaz.
Pixenon’da Kenan Ayvataş’ın sık vurguladığı bir noktayı burada paylaşmak isteriz: “AI görünürlüğü, klasik SEO’nun üzerine inşa edilen yeni bir katman. Ama temel taşı aynı: erişilebilirlik. Bot içeriğinize ulaşamıyorsa, hiçbir optimizasyon işe yaramaz.”
Robots.txt Nedir ve Nasıl Çalışır?
Robots.txt, sitenizin kök dizininde (örneğin siteniz.com/robots.txt) yer alan, düz metin formatında bir dosyadır. Bu dosya, hangi botların hangi sayfalara erişebileceğini belirten kurallar içerir. Yapı oldukça basittir: her blok bir veya daha fazla User-agent satırıyla başlar, ardından Allow veya Disallow kuralları gelir.
Önemli bir noktayı netleştirmek gerekir: robots.txt bir “kilit” değil, bir “rica”dır. Yani robots.txt dosyasında bir botu engellemeniz, o botun fiilen sitenize gelmeyeceği anlamına gelmez. Saygılı (compliant) botlar bu kurallara uyar, ancak bazı botların robots.txt’i görmezden geldiği yönünde belgelenmiş örnekler bulunuyor. Bu nedenle hassas veya telifli içerikler için robots.txt’in yanı sıra sunucu seviyesinde veya WAF (Web Application Firewall) düzeyinde ek önlemler almak gerekebilir.
Hangi AI Crawler’lar Var? Temel Botların Haritası
2026 itibarıyla sitenize gelen yapay zeka botlarının sayısı oldukça arttı. Bunları üç ana kategoriye ayırabiliriz: eğitim botları, arama zamanlı (search-time) botlar ve kullanıcı tetikli (user-triggered) botlar.
OpenAI Botları
OpenAI, botlarını zaman içinde ayrıştırdı. GPTBot, esas olarak model eğitimi için içerik toplayan bottur. OAI-SearchBot, ChatGPT’nin arama özelliği için sayfaları tarar ve gerçek zamanlı sonuçlara dahil eder. OpenAI, GPTBot’u arama ile ilgili botlarından 2024’ün sonlarında ayırdı. Bunun pratik sonucu çok net: OpenAI’nin dokümantasyonu, OAI-SearchBot’u engelleyen sitelerin ChatGPT arama cevaplarında görünmeyeceğini, ancak gezinme bağlantılarının (navigational links) yine de görünebileceğini açıkça belirtiyor.
Ayrıca ChatGPT-User, bir kullanıcı doğrudan bir bağlantıyı ChatGPT içinde paylaştığında veya sorduğunda devreye giren bottur. OpenAI, ChatGPT-User’ın diğer otomatik tarayıcılar gibi robots.txt tarafından aynı şekilde yönetilmeyebileceğini özellikle belirtiyor.
Anthropic Botları (Claude)
Anthropic’in bot ailesi de benzer bir mantıkla bölünmüş durumda. Anthropic’in üç botu robots.txt kurallarına sıkı şekilde uyuyor ve birbirinden tamamen bağımsız çalışıyor: ClaudeBot model eğitimi için veri toplar, Claude-SearchBot arama indekslemesi yapar, Claude-User ise bir kullanıcının doğrudan isteği üzerine sayfaları getirir. Eski “Claude-Web” ve “anthropic-ai” gibi user-agent string’leri artık aktif değil; bu isimleri hedefleyen eski robots.txt kuralları, Anthropic’in güncel botlarını fiilen engellemiyor.
PerplexityBot ve Perplexity-User
Perplexity, kendi tarayıcısını “PerplexityBot” ve kullanıcı tetikli erişimini “Perplexity-User” olarak adlandırıyor. Ancak burada ciddi bir güvenilirlik sorunu var. Cloudflare’in yayınladığı bir raporda, Perplexity’nin robots.txt kurallarını görmezden gelerek user-agent, IP ve ASN bilgilerini değiştiren beyan edilmemiş (undeclared) tarayıcılar kullandığı tespit edildi; Cloudflare bu durumu sert bir dille değerlendirip, Perplexity istemiyorsa robots.txt’in onun için güvenilir bir savunma olmadığını belirtti.
Diğer Önemli Botlar
Google tarafında Google-Extended, Gemini ve diğer üretici modellerin eğitiminde sitenizin kullanılıp kullanılmayacağını kontrol eder. CCBot (Common Crawl), birçok modelin eğitim verisinin kaynağı olan açık veri setini besler. Bytespider (ByteDance/TikTok) ve Meta-ExternalAgent / FacebookBot ise eğitim odaklı, agresif tarama yapan botlar arasında sayılıyor. Bytespider ve Perplexity’nin gizli (stealth) tarayıcılarının robots.txt’i görmezden geldiği belgelenmiş durumda ve uyumsuz botlar için tek gerçek savunma sunucu veya WAF seviyesinde alınan önlemler.

Botları Nasıl Doğrularsınız?
User-agent string’leri kolayca taklit edilebilir. Sunucu loglarınızda “ClaudeBot” yazan bir istek, gerçekten Anthropic’ten gelmeyebilir; kötü niyetli bir scraper bu ismi kopyalayıp kullanabilir. Doğrulamayı sadece user-agent string’ine güvenerek değil, ters DNS (reverse DNS) sorgusu yaparak yapmak gerekiyor; çünkü herhangi biri bir header’ı taklit edebilir. Pixenon’da müşteri projelerinde log analizi yaparken ilk adımımız her zaman bu doğrulamadır çünkü “AI trafiği” diye raporlanan istekler bazen gerçek AI botları değil, sahte user-agent kullanan scraper’lardır.
Robots.txt Stratejisi: Açık mı, Seçici mi, Kapalı mı?
Sitenizin robots.txt yapılandırmasını belirlerken iki temel eksen vardır: görünürlük önceliğiniz ve eğitim verisi (training data) politikanız. Bu eksenler kesişiminde üç yaygın yaklaşım ortaya çıkıyor.
Varsayılan olarak açık (open by default) yaklaşımı, tüm önemli AI botlarına izin vermek anlamına gelir. Bu, ChatGPT, Claude, Perplexity ve Google AI Overviews’da maksimum atıf (citation) yüzeyi sağlar. B2B SaaS şirketleri, medya kuruluşları ve içerik pazarlamasına dayanan danışmanlık firmaları için bu yaklaşım yaygındır çünkü bu işletmelerin varlığı “bulunabilir olmaya” bağlıdır.
Seçici (selective) yaklaşım, arama zamanlı botlara (OAI-SearchBot, ClaudeBot, PerplexityBot, Bingbot, Googlebot) izin verirken, sadece eğitim amaçlı tarayıcıları (CCBot, isteğe bağlı olarak GPTBot, isteğe bağlı olarak Google-Extended) engellemeyi içerir. Bu, “içeriğim AI cevaplarında görünsün ama model eğitimine doğrudan katkıda bulunmasın” diyen markalar için tercih edilir.
Kapalı (cezalandırıcı) yaklaşım, neredeyse tüm AI botlarını engellemektir. Bu, özellikle telif hakkı kaygısı yüksek, münhasır (proprietary) içerik üreten yayıncılar için geçerli olabilir. Ancak unutulmaması gereken şey, bu yaklaşımın markanızı AI tabanlı arama deneyiminden tamamen sileceğidir.
Pratik Robots.txt Yapılandırması
Aşağıda, AI görünürlüğünü önceliklendiren bir marka için başlangıç noktası olarak kullanılabilecek temel bir yapı bulunuyor:
# OpenAI botları
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Anthropic (Claude) botları
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
# Google eğitim botu
User-agent: Google-Extended
Allow: /
# Uyumsuzluk geçmişi nedeniyle önerilen engelleme
User-agent: Bytespider
Disallow: /
Sitemap: https://siteniz.com/sitemap.xml
Eğer “seçici” yaklaşımı tercih ediyorsanız, belirli yollar (path) için farklı kurallar tanımlayabilirsiniz:
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /private/
Disallow: /admin/
Disallow: /checkout/
Bu yapı, blog ve dokümantasyon sayfalarınızın taranmasına izin verirken, hassas alanları (yönetim panelleri, ödeme sayfaları, özel kullanıcı verileri) tüm botlardan korur. Bu, hangi politikayı seçerseniz seçin uygulanması gereken evrensel bir kuraldır: hassas yollar her zaman tüm botlar için engellenmelidir.
Maliyet-Fayda Dengesi: Crawl-to-Referral Oranları
AI botlarına izin vermenin bir maliyeti olduğunu da göz ardı etmemek gerekir. Bazı botlar sitenizi çok sık tarayıp size çok az (veya hiç) trafik geri döndürmüyor. Bu orana “crawl-to-referral ratio” denir ve bazı botlar için bu oran oldukça çarpıcı seviyelerde. ClaudeBot 23.951 sayfa tarama başına 1 yönlendirme yaparken, GPTBot için bu oran 1.276’ya 1; sadece PerplexityBot yaklaşık 110’a 1 oranıyla görece güçlü bir geri dönüş sağlıyor. Aynı kaynağa göre AI crawler trafiğinin %89,4’ü eğitim veya karma amaçlı, sadece %2,2’si gerçek zamanlı, kullanıcı tetikli istekler.
Bu veriler, “her şeyi açık tut” yaklaşımının her marka için doğru olmayabileceğini gösteriyor. Sunucu kaynaklarınız sınırlıysa veya bant genişliği maliyeti önemliyse, en agresif ve en düşük geri dönüşlü eğitim botlarını (örneğin Meta-ExternalAgent, Bytespider) engellerken, gerçek atıf trafiği getiren botları (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, Claude-User, PerplexityBot) açık tutmak “cerrahi” (surgical) bir yaklaşım olarak öne çıkıyor.
Ancak ürün veya hizmet satan, içerik pazarlamasının marka bilinirliğini doğrudan beslediği işletmeler için denklem tersine dönüyor: maksimum AI görünürlüğü, maksimum öneri (recommendation) yüzey alanı anlamına gelir. Pixenon olarak büyüme odaklı projelerde bu ikinci yaklaşımı, yani “agresif eğitim botlarını engelle ama arama ve atıf botlarına geniş izin ver” stratejisini sıklıkla öneriyoruz.
Robots.txt’i Doğru Yapılandırmanın Ötesinde: Sessiz Hatalar
Robots.txt dosyanızı doğru yazmış olmanız, AI botlarının sitenizi gerçekten tarayabildiği anlamına gelmez. Birçok site, Googlebot için sorunsuz çalışan bir robots.txt’e sahip olsa da, GPTBot, ClaudeBot ve PerplexityBot için sessizce başarısız oluyor. Bunun birkaç yaygın sebebi var:
İlk olarak, wildcard disallow override sorunu: dosyanın başka bir yerinde tüm botlar için genel bir Disallow: / kuralı varsa, daha sonra eklediğiniz spesifik “Allow” kuralları bazı parser’larda öncelik kazanamayabilir. İkincisi, case-sensitive user-agent uyuşmazlıkları: “claudebot” ile “ClaudeBot” yazımı arasındaki fark bazı sistemlerde önemli olabilir, dikkatli olunmalı.
Üçüncüsü ve en sık gözden kaçan, CDN/WAF seviyesinde sessiz engelleme: Cloudflare gibi hizmetler, kendi “Bot Management” panellerinde AI botlarını engelleyen ayarlara sahip olabilir ve bu ayarlar, kök dizindeki robots.txt dosyanızdan tamamen bağımsız çalışır.
Bir araştırmaya göre, B2B SaaS ve e-ticaret sitelerinin yaklaşık %27’si, CDN katmanında yanlışlıkla büyük LLM tarayıcılarını engelliyor.
Bu nedenle, robots.txt’inizi güncelledikten sonra mutlaka şu kontrolleri yapmanızı öneririz: dosyanın text/plain içerik türüyle sunulduğunu doğrulayın, CDN/güvenlik panelinizde “AI bot engelleme” veya “Manage robots.txt” gibi ayarların kapalı veya doğru yapılandırılmış olduğunu kontrol edin, ve değişiklikten sonraki birkaç gün içinde sunucu loglarınızda ilgili botların gerçekten geldiğini teyit edin.
Robots.txt ile llms.txt İlişkisi
Robots.txt bir “kapı bekçisi” (gatekeeper) işlevi görür — kimin içeri girebileceğini belirler. Buna karşılık, son dönemde popülerleşen llms.txt dosyası farklı bir amaca hizmet eder: sitenizin en önemli sayfalarını, özetlerini ve yapısını AI sistemlerine “pozitif bir sinyal” olarak sunan bir rehber niteliğindedir.
Robots.txt erişimi kontrol ederken, llms.txt o erişimi nasıl en iyi şekilde kullanacaklarına dair AI sistemlerine ipucu verir. İkisi birbirini tamamlayan, ancak farklı işlevlere sahip dosyalardır ve kapsamlı bir AI görünürlük stratejisinin parçası olarak birlikte ele alınmalıdır.
Düzenli Denetim Şart
AI crawler ekosistemi son derece hızlı değişiyor. Yeni botlar haftalar içinde ortaya çıkabiliyor, eski user-agent string’leri kullanım dışı kalabiliyor (Claude-Web ve anthropic-ai gibi örnekler bunun kanıtı). Bu nedenle robots.txt, bir kere yazılıp unutulan bir dosya olmaktan çıkıp, düzenli olarak gözden geçirilmesi gereken “yaşayan bir politika belgesi” haline gelmeli.
Önerilen pratik: dosyayı çeyreklik olarak denetleyin, kullanım dışı kalmış string’leri kaldırın, her yeni büyük crawler lansmanından sonraki bir hafta içinde gerekli kuralı ekleyin ve her CMS güncellemesinden sonra dosyanın hâlâ doğru sunulduğunu teyit edin.
Pixenon’un Yaklaşımı
AI crawler’ları yönetmek, artık teknik SEO‘nun ayrılmaz bir parçası. Sitenizin robots.txt dosyası, markanızın ChatGPT, Claude ve Perplexity gibi platformlarda görünüp görünmeyeceğini belirleyen ilk ve en kritik filtre. Pixenon büyüme ajansı olarak, kurucumuz Kenan Ayvataş önderliğinde geliştirdiğimiz AI görünürlük denetimlerinde, müşterilerimize önce mevcut robots.txt ve CDN ayarlarının kapsamlı bir analizini sunuyor, ardından işletmenin hedeflerine içerik pazarlaması odaklı görünürlük mü, yoksa münhasır veri koruması mı uygun bir izin/engelleme stratejisi tasarlıyoruz.
Unutulmaması gereken temel gerçek şu: robots.txt’i yanlış yapılandırmış bir site için, en kaliteli içerik, en iyi teknik SEO altyapısı bile AI tabanlı aramada hiçbir işe yaramaz. Çünkü bot içeriğe erişemiyorsa, o içerik AI’nın dünyasında hiç var olmamış gibidir.
Eğer sitenizin AI crawler’lar tarafından doğru şekilde okunup okunmadığından emin değilseniz, Pixenon ekibi olarak kapsamlı bir log analizi ve robots.txt denetimi ile bu görünmez engelleri ortaya çıkarmaya ve markanızı yapay zeka tabanlı keşif kanallarına hazırlamaya yardımcı olabiliriz.

