robots.txt’te İndekslemeyi Devre Dışı Bırakma: Arama Motoru Tarayıcılarını Kontrol Etmek İçin Tam Rehber
Arama motorlarının web sitenizi nasıl taradığını ve dizine aldığını yönetmek, teknik SEO’nun temel bir yönüdür. İhtiyacınız olan en güçlü — ve sık sık yanlış anlaşılan — araçlardan biri robots.txt dosyasıdır. Hassas dizinleri engellemek, yinelenen içeriğin arama sonuçlarında görünmesini önlemek veya hazırlama ortamlarına erişimi kısıtlamak isteyip istemediğiniz fark etmeksizin, robots.txt size tarayıcı davranışı üzerinde kesin, ayrıntılı kontrol sağlar.
Bu kapsamlı kılavuzda, robots.txt kullanarak dizine almayı devre dışı bırakma hakkında bilmeniz gereken her şeyi size anlatacağız: dosyaya erişmekten ve oluşturmaktan, doğru sözdizimi yazmaya, kurallarınızı test etmeye ve yaygın hataları önlemeye kadar.
robots.txt Nedir ve Neden Önemlidir?
Bir robots.txt dosyası, web sitenizin kök dizinine yerleştirilen düz metin dosyasıdır. Robots Exclusion Protocol (REP)‘ü takip eder — arama motoru tarayıcılarına (bot veya spider olarak da adlandırılır) hangi sayfalar, dizinler veya dosyalara erişmelerine izin verildiğini veya yasaklandığını belirten bir standarttır.
Google bot gibi bir arama motoru sitenizi ziyaret ettiğinde, yaptığı ilk şey https://yourwebsite.com/robots.txt konumunda bir robots.txt dosyasını kontrol etmektir. Dosya varsa, bot direktifleri okur ve tarama davranışını buna göre ayarlar.
SEO için Uygun robots.txt Yapılandırması Neden Önemlidir
- Tarama bütçesi optimizasyonu: Arama motorları her siteye sınırlı bir tarama bütçesi ayırır. İlgisiz sayfaları (yönetici panelleri, giriş sayfaları, dahili arama sonuçları) engellemek, tarayıcıların zamanını gerçekten önemli olan içeriğe harcamasını sağlar.
- Yinelenen içeriği önleme: Parametre tabanlı URL’leri veya oturum kimliklerini engellemek, arama motorlarının neredeyse aynı sayfaları indekslemesini önler.
- Hassas içeriği koruma: Yönetici alanları, hazırlık ortamları ve özel dosyalar asla arama sonuçlarında görünmemelidir.
- Site performansını iyileştirme: Gereksiz tarama isteklerini azaltmak sunucu yükünü düşürebilir.
> Önemli ayrım: robots.txt tarayıcıları sayfalara erişmekten *caydırır* — bunların indekslenmeyeceğini garanti etmez. Bir sayfanın arama sonuçlarında görünmesini tamamen önlemek için, ayrıca bir noindex meta etiketi veya HTTP başlığı kullanmalısınız. robots.txt ve noindex birlikte en iyi şekilde çalışır.
Web sitenizi bir VPS Hosting planında veya bir Dedicated Server‘da barındırıyorsanız, SSH aracılığıyla veya tercih ettiğiniz dosya yöneticisi aracılığıyla robots.txt dosyasını doğrudan yönetmek için tam kök erişimine sahipsiniz — sitenizin tarama davranışı üzerinde tam kontrol sağlar.
Adım 1: robots.txt Dosyanıza Erişin veya Oluşturun
robots.txt dosyası web sitenizin kök dizininde bulunmalıdır — bir alt dizinde değil. Zaten var olup olmadığını şu adrese ziyaret ederek doğrulayabilirsiniz:
https://yourwebsite.com/robots.txtDosya varsa, içeriğini düz metin olarak görüntülenmiş şekilde göreceksiniz. 404 hatası alırsanız, bir tane oluşturmanız gerekecektir.
Farklı Yöntemlerle robots.txt’ye Nasıl Erişilir
SSH aracılığıyla (Linux sunucuları):
nano /var/www/html/robots.txtFTP/SFTP istemcisi aracılığıyla (örneğin, FileZilla):
Web sitenizin kök dizinine gidin (genellikle public_html veya www) ve robots.txt dosyasını açın veya oluşturun.
cPanel Dosya Yöneticisi aracılığıyla:
Hosting planınız bir kontrol paneli içeriyorsa, cPanel’e giriş yapın, Dosya Yöneticisi‘ni açın, public_html konumuna gidin ve robots.txt dosyasını doğrudan tarayıcıda oluşturun veya düzenleyin. cPanel’li VPS üzerindeki kullanıcılar bunu sezgisel cPanel arayüzü aracılığıyla kolaylıkla yönetebilirler.
Yerel bir metin editörü aracılığıyla:
Yeni bir dosya oluşturun, adını tam olarak robots.txt olarak adlandırın (küçük harf, boşluk yok), yönergeleri yazın ve kök dizininize yükleyin.
> Kritik kural: Dosya adı robots.txt olmalıdır — tümü küçük harf — ve alan adınızın çok kökünde bulunmalıdır, hiçbir alt dizinde değil.
Adım 2: robots.txt Söz Dizimini Anlama
robots.txt dosyası basit bir yönerge tabanlı söz dizimi kullanır. Her kural bloğu en az iki satırdan oluşur:
Temel Yönergeler
| Yönerge | Amaç |
|---|---|
User-agent | Kuralın hangi tarayıcıya uygulanacağını belirtir |
Disallow | Tarayıcının erişemeyeceği yolları belirtir |
Allow | Bir yola erişimi açıkça izin verir (Disallow’u geçersiz kılar) |
Sitemap | Tarayıcıları XML sitemap konumunuza yönlendirir |
Crawl-delay | İstekler arasında bir gecikme önerir (Googlebot tarafından desteklenmez) |
User-agent Değerleri
* — Kuralı tüm tarayıcılara uygular
Googlebot — Yalnızca Google’ın ana tarayıcısına uygulanır
Bingbot — Yalnızca Microsoft Bing’in tarayıcısına uygulanır
GPTBot — OpenAI’nin tarayıcısına uygulanır
CCBot — Common Crawl’ın tarayıcısına uygulanır
Temel Söz Dizimi Yapısı
User-agent: [crawler name or *]
Disallow: [path to block]
Allow: [path to explicitly allow]
Sitemap: https://yourwebsite.com/sitemap.xml
Temel söz dizimi kuralları:
Her yönerge kendi satırında olmalıdır
Kural bloklarını boş bir satırla ayırın
Yollar büyük/küçük harfe duyarlıdır
Sondaki eğik çizgi (/) bir dizini ve içindeki her şeyi ifade eder
Açıklamalar # kullanılarak eklenebilir
Adım 3: Belirli Sayfalar veya Dizinler için İndekslemeyi Devre Dışı Bırakın
Şimdi en yaygın kullanım durumları için pratik örneklere bakalım.
Tek Bir Sayfayı Engelle
User-agent: *
Disallow: /private-page.html
Bu, tüm tarayıcıların /private-page.html adresine erişmesini engeller.
Tüm Bir Dizini Engelle
User-agent: *
Disallow: /admin/
Bu, /admin/ dizinine ve içindeki tüm dosyalara erişimi engeller — arka uç panellerini korumak için idealdir.
Birden Fazla Sayfayı veya Dizini Engelle
User-agent: *
Disallow: /admin/
Disallow: /staging/
Disallow: /wp-login.php
Disallow: /cart/
Disallow: /checkout/
Belirli Bir Dosya Türünü Engelle
Tüm PDF dosyalarının indekslenmesini engellemek için:
User-agent: *
Disallow: /*.pdf$
URL Parametrelerini Engelle
Sorgu dizelerine sahip URL’lerin taranmasını engelleyin (örneğin, oturum kimlikleri, izleme parametreleri):
User-agent: *
Disallow: /*?
> Dikkatli kullanın: Bu, önemli sayfalandırılmış içerik veya ürün filtreleri içerebilen TÜM sorgu dizelerine sahip URL’leri engeller.
Yalnızca Googlebot’u Engelle
User-agent: Googlebot
Disallow: /private-directory/
Engellenen Bir Dizin İçinde Bir Alt Dizine İzin Ver
User-agent: *
Disallow: /members/
Allow: /members/public-profile/
Bu, /members/ içindeki her şeyi engeller, ancak /members/public-profile/ alt dizini hariç.
Adım 4: Tüm Web Siteniz için İndekslemeyi Devre Dışı Bırakın
Tüm arama motorlarının web sitenizi taramasını tamamen önlemeniz gerekiyorsa — örneğin geliştirme sırasında, bir hazırlama sunucusunda veya özel bir intranet için — aşağıdakini kullanın:
User-agent: *
Disallow: /
Bu tek direktif, her tarayıcıya sitenizin herhangi bir sayfasına erişmemesini söyler.
Belirli AI Tarayıcılarını Engelleme
AI destekli arama ve dil modeli eğitiminin artmasıyla, belirli AI botlarının içeriğinizi taramasını da engellemek isteyebilirsiniz:
# Block OpenAI's crawler
User-agent: GPTBot
Disallow: /
# Block Google's AI training crawler
User-agent: Google-Extended
Disallow: /
# Block Common Crawl
User-agent: CCBot
Disallow: /
# Block all other crawlers
User-agent: *
Disallow: /
Geliştirmeden Sonra Taramayı Yeniden Etkinleştirin
Siteniz canlı olmaya hazır olduğunda, Disallow: / direktifini basitçe kaldırın veya bunu boş bir Disallow: ile değiştirin (bu “her şeye izin ver” anlamına gelir):
User-agent: *
Disallow:
Adım 5: Tam, Gerçek Dünya robots.txt Örneği
İşte tipik bir WordPress web sitesi için iyi yapılandırılmış bir robots.txt dosyası:
# General rules for all crawlers
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /feed/
Disallow: /trackback/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
# Block Bing's crawler from specific directories
User-agent: Bingbot
Disallow: /staging/
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# Sitemap location
Sitemap: https://yourwebsite.com/sitemap.xml
Adım 6: robots.txt Dosyanızı Test Edin
Kuralları yazmak işin sadece yarısıdır. Test etmek gereklidir — yanlış yapılandırılmış bir robots.txt dosyası, en önemli sayfalarınızın dizine alınmasını yanlışlıkla engelleyebilir ve organik trafikte önemli düşüşlere neden olabilir.
Google Search Console robots.txt Test Aracı
Google Search Console’da oturum açın
Özelliğinizi seçin
Ayarlar → robots.txt bölümüne gidin
Belirli URL’leri girerek mevcut kurallarınız tarafından izin verilip verilmediğini veya engellenip engellenmediğini kontrol edin
Çevrimiçi robots.txt Doğrulayıcıları
Google Search Console’a erişim gerektirmeden robots.txt dosyanızı test etmenizi sağlayan birkaç ücretsiz araç vardır:
Merkle’s robots.txt Tester — technicalseo.com/tools/robots-txt/Google Araması Yoluyla Manuel Test
Ayrıca bir sayfanın dizine alınıp alınmadığını şu şekilde arayarak kontrol edebilirsiniz:
site:yourwebsite.com/private-page.htmlSayfa sonuçlarda görünüyorsa, robots.txt kurallarınıza rağmen dizine alınmıştır — bu, sayfanın ona işaret eden harici bağlantılara sahip olabileceğini gösterebilir (Googlebot, robots.txt tarafından tarama engellense bile, bağlantılar aracılığıyla keşfettiği bir URL’yi yine de dizine alabilir).
Kaçınılması Gereken Yaygın robots.txt Hataları
Deneyimli web yöneticileri bile bu hataları yapıyor. İşte dikkat etmeniz gerekenler:
| Hata | Sonuç | Çözüm |
|---|---|---|
| CSS ve JS dosyalarını engelleme | Google sayfalarınızı düzgün şekilde işleyemiyor, sıralamayı etkiliyor | Kritik varlıklar için Allow yönergeleri kullanın |
| robots.txt’yi hassas verileri gizlemek için kullanma | Botlar yine de URL’yi harici bağlantılar aracılığıyla dizine alabilir | Bunun yerine sunucu tarafı kimlik doğrulaması kullanın |
| Tüm sitenizi yanlışlıkla engelleme | Tamamen dizin dışı bırakılma, büyük trafik kaybı | Değişikliklerden sonra her zaman test edin |
| Yanlış dosya konumu | Tarayıcılar dosyayı tamamen yok sayıyor | Yalnızca kök dizine yerleştirin |
| Büyük/küçük harf duyarlılığı hataları | /Admin/ ≠ /admin/ Linux sunucularında | Dizinlerinizin tam durumunu eşleştirin |
| Sitemap yönergesini unutma | Tarayıcılar yeni içeriği kaçırabilir | Her zaman sitemap URL’nizi ekleyin |
robots.txt ve noindex: Hangisini Kullanmalısınız?
Bu, teknik SEO’da en yaygın kafa karışıklığı noktalarından biridir:
| **robots.txt Disallow** | **noindex Meta Tag** | |
|---|---|---|
| Ne yapar | Taramaları engeller | İndekslemeyi engeller |
| Garantili mi? | Hayır — URL’ler bağlantılar aracılığıyla yine de indekslenebilir | Evet — taranırsa, sayfa indekslenmeyecektir |
| En iyi kullanım | Kaynakların tarama erişimini engelleme | Sayfaları arama sonuçlarından kaldırma |
| Sayfa taranmazsa çalışır mı? | Uygulanamaz | Hayır — etiketi okumak için sayfa taranmalıdır |
En iyi uygulama: Maksimum kontrol için her ikisini de kullanın. robots.txt ile taramaları engelleyin VE <meta name="robots" content="noindex"> öğesini sayfanın HTML’sine ekleyin.
Farklı Barındırma Ortamlarında robots.txt Yönetimi
robots.txt yönetme yeteneğiniz barındırma ortamınıza bağlıdır:
- Paylaşımlı Web Barındırma: cPanel Dosya Yöneticisi veya FTP aracılığıyla erişim. Kök dizin dosyalarınız üzerinde tam kontrol.
- VPS Barındırma: Tam SSH erişimi, doğrudan dosya düzenleme, robots.txt güncellemelerinin komut dosyası oluşturma ve otomasyonunu sağlar.
- Özel Sunucular: Maksimum kontrol — sanal ana bilgisayar başına robots.txt yapılandırması, dağıtımların otomasyonu ve CI/CD boru hatları ile entegrasyon.
Birden fazla alt etki alanına sahip web siteleri için, her alt etki alanının kendi robots.txt dosyasına ilgili kökünde (örneğin, https://blog.yourwebsite.com/robots.txt) ihtiyacı olduğunu unutmayın.
Ek olarak, web siteniz hassas kullanıcı verilerini veya iş iletişimlerini işliyorsa, güçlü tarama kontrolünü geçerli bir SSL Sertifikası ile eşleştirmek, erişilebilir sayfaların bile güvenli bir şekilde sunulmasını sağlar — bu aynı zamanda onaylanmış bir Google sıralama faktörüdür.
robots.txt Hakkında Sıkça Sorulan Sorular
S: robots.txt bir sayfanın dizine alınmasını tamamen engeller mi?
Hayır. robots.txt taraması engeller, ancak başka bir site engellenen bir sayfaya bağlantı verirse, arama motorları yine de URL’yi dizine alabilir (içerik olmadan). Arama sonuçlarından garantili hariç tutulma için noindex kullanın.
S: Aynı tarayıcı için birden fazla User-agent bloğu olabilir mi?
Hayır. Her tarayıcı yalnızca bir kural bloğunda görünmelidir. Aynı User-agent için birden fazla blok öngörülemeyen davranışlara neden olabilir.
S: robots.txt değişiklikleri ne kadar hızlı etkili olur?
Google genellikle robots.txt’yi 24–48 saat içinde yeniden tarar. Google Search Console aracılığıyla daha hızlı yeniden tarama talep edebilirsiniz.
S: WordPress yönetici alanını engellemek için robots.txt kullanmalı mıyım?
Evet — /wp-admin/ bloğu (/wp-admin/admin-ajax.php izin verirken) WordPress güvenliği ve tarama bütçesi optimizasyonu için yaygın olarak önerilen en iyi uygulamadır.
S: robots.txt sitemin sıralamasını etkiler mi?
Dolaylı olarak evet. Uygun robots.txt yapılandırması tarama verimliliğini artırır, yinelenen içerik sorunlarını engeller ve en önemli sayfalarınızın en fazla tarama dikkatini almasını sağlar — bunların tümü SEO performansını olumlu yönde etkiler.
Sonuç
robots.txt dosyası, teknik SEO ve web sitesi yönetiminin aldatıcı derecede basit ancak kritik derecede önemli bir bileşenidir. Doğru şekilde yapılandırıldığında, arama motorlarının tarama bütçesini en değerli içeriğinize odaklamasına yardımcı olur, sitenizin hassas alanlarını korur, yinelenen içerik sorunlarını önler ve hangi AI sistemlerinin verileriniz üzerinde eğitim yapabileceğini kontrol etmenizi sağlar.
Bu kılavuzdan ana çıkarımlar:
- robots.txt dosyasını her zaman kök dizininize yerleştirin ve
yourwebsite.com/robots.txtadresinde erişilebilir olduğunu doğrulayın - Önemli içeriği yanlışlıkla gizleyebilecek geniş bloklamalar yerine belirli, hedefli yönergeler kullanın
- robots.txt dosyasını noindex etiketleriyle birleştirin kapsamlı dizin oluşturma kontrolü için
- Her değişikliği test edin Google Search Console veya özel bir robots.txt test aracı kullanarak
- AI tarayıcılarını açıkça engelleyin içeriğinizin AI eğitim veri setlerinde kullanılmasını önlemek istiyorsanız
- Gerçekten hassas verileri korumak için robots.txt dosyasına tek başına güvenmeyin — bunun yerine uygun kimlik doğrulaması kullanın
Paylaşımlı Web Hosting üzerinde küçük bir işletme web sitesi çalıştırıyor olsanız veya Dedicated Servers üzerinde karmaşık bir çok sunuculu altyapıyı yönetiyor olsanız, robots.txt dosyasında uzmanlaşmak sitenizin arama motoru görünürlüğünü, güvenliğini ve performansını doğrudan etkileyen temel bir beceridir.
Bugün mevcut robots.txt yapılandırmanızı denetlemek için zaman ayırın — iyi yerleştirilmiş birkaç yönerge, arama motorlarının web sitenizi nasıl keşfettiği, taradığı ve sıraladığı konusunda önemli bir fark yaratabilir.
tasarruf edin