Tüm barındırma hizmetlerinde 15% tasarruf edin

Becerilerini test et ve herhangi bir hosting planında İndirim kazan

Kodu kullanın: Skills Başlayın
Bölüm
Yönetim

robots.txt’te İndekslemeyi Devre Dışı Bırakma: Arama Motoru Tarayıcılarını Kontrol Etmek İçin Tam Rehber

Arama motorlarının web sitenizi nasıl taradığını ve dizine aldığını yönetmek, teknik SEO’nun temel bir yönüdür. İhtiyacınız olan en güçlü — ve sık sık yanlış anlaşılan — araçlardan biri robots.txt dosyasıdır. Hassas dizinleri engellemek, yinelenen içeriğin arama sonuçlarında görünmesini önlemek veya hazırlama ortamlarına erişimi kısıtlamak isteyip istemediğiniz fark etmeksizin, robots.txt size tarayıcı davranışı üzerinde kesin, ayrıntılı kontrol sağlar.

Bu kapsamlı kılavuzda, robots.txt kullanarak dizine almayı devre dışı bırakma hakkında bilmeniz gereken her şeyi size anlatacağız: dosyaya erişmekten ve oluşturmaktan, doğru sözdizimi yazmaya, kurallarınızı test etmeye ve yaygın hataları önlemeye kadar.

robots.txt Nedir ve Neden Önemlidir?

Bir robots.txt dosyası, web sitenizin kök dizinine yerleştirilen düz metin dosyasıdır. Robots Exclusion Protocol (REP)‘ü takip eder — arama motoru tarayıcılarına (bot veya spider olarak da adlandırılır) hangi sayfalar, dizinler veya dosyalara erişmelerine izin verildiğini veya yasaklandığını belirten bir standarttır.

Google bot gibi bir arama motoru sitenizi ziyaret ettiğinde, yaptığı ilk şey https://yourwebsite.com/robots.txt konumunda bir robots.txt dosyasını kontrol etmektir. Dosya varsa, bot direktifleri okur ve tarama davranışını buna göre ayarlar.

SEO için Uygun robots.txt Yapılandırması Neden Önemlidir

  • Tarama bütçesi optimizasyonu: Arama motorları her siteye sınırlı bir tarama bütçesi ayırır. İlgisiz sayfaları (yönetici panelleri, giriş sayfaları, dahili arama sonuçları) engellemek, tarayıcıların zamanını gerçekten önemli olan içeriğe harcamasını sağlar.
  • Yinelenen içeriği önleme: Parametre tabanlı URL’leri veya oturum kimliklerini engellemek, arama motorlarının neredeyse aynı sayfaları indekslemesini önler.
  • Hassas içeriği koruma: Yönetici alanları, hazırlık ortamları ve özel dosyalar asla arama sonuçlarında görünmemelidir.
  • Site performansını iyileştirme: Gereksiz tarama isteklerini azaltmak sunucu yükünü düşürebilir.

> Önemli ayrım: robots.txt tarayıcıları sayfalara erişmekten *caydırır* — bunların indekslenmeyeceğini garanti etmez. Bir sayfanın arama sonuçlarında görünmesini tamamen önlemek için, ayrıca bir noindex meta etiketi veya HTTP başlığı kullanmalısınız. robots.txt ve noindex birlikte en iyi şekilde çalışır.

Web sitenizi bir VPS Hosting planında veya bir Dedicated Server‘da barındırıyorsanız, SSH aracılığıyla veya tercih ettiğiniz dosya yöneticisi aracılığıyla robots.txt dosyasını doğrudan yönetmek için tam kök erişimine sahipsiniz — sitenizin tarama davranışı üzerinde tam kontrol sağlar.

Adım 1: robots.txt Dosyanıza Erişin veya Oluşturun

robots.txt dosyası web sitenizin kök dizininde bulunmalıdır — bir alt dizinde değil. Zaten var olup olmadığını şu adrese ziyaret ederek doğrulayabilirsiniz:

https://yourwebsite.com/robots.txt

Dosya varsa, içeriğini düz metin olarak görüntülenmiş şekilde göreceksiniz. 404 hatası alırsanız, bir tane oluşturmanız gerekecektir.

Farklı Yöntemlerle robots.txt’ye Nasıl Erişilir

SSH aracılığıyla (Linux sunucuları):

nano /var/www/html/robots.txt

FTP/SFTP istemcisi aracılığıyla (örneğin, FileZilla):

Web sitenizin kök dizinine gidin (genellikle public_html veya www) ve robots.txt dosyasını açın veya oluşturun.

cPanel Dosya Yöneticisi aracılığıyla:

Hosting planınız bir kontrol paneli içeriyorsa, cPanel’e giriş yapın, Dosya Yöneticisi‘ni açın, public_html konumuna gidin ve robots.txt dosyasını doğrudan tarayıcıda oluşturun veya düzenleyin. cPanel’li VPS üzerindeki kullanıcılar bunu sezgisel cPanel arayüzü aracılığıyla kolaylıkla yönetebilirler.

Yerel bir metin editörü aracılığıyla:

Yeni bir dosya oluşturun, adını tam olarak robots.txt olarak adlandırın (küçük harf, boşluk yok), yönergeleri yazın ve kök dizininize yükleyin.

> Kritik kural: Dosya adı robots.txt olmalıdır — tümü küçük harf — ve alan adınızın çok kökünde bulunmalıdır, hiçbir alt dizinde değil.

Adım 2: robots.txt Söz Dizimini Anlama

robots.txt dosyası basit bir yönerge tabanlı söz dizimi kullanır. Her kural bloğu en az iki satırdan oluşur:

Temel Yönergeler

YönergeAmaç
User-agentKuralın hangi tarayıcıya uygulanacağını belirtir
DisallowTarayıcının erişemeyeceği yolları belirtir
AllowBir yola erişimi açıkça izin verir (Disallow’u geçersiz kılar)
SitemapTarayıcıları XML sitemap konumunuza yönlendirir
Crawl-delayİstekler arasında bir gecikme önerir (Googlebot tarafından desteklenmez)

User-agent Değerleri

    * — Kuralı tüm tarayıcılara uygular
    Googlebot — Yalnızca Google’ın ana tarayıcısına uygulanır
    Bingbot — Yalnızca Microsoft Bing’in tarayıcısına uygulanır
    GPTBot — OpenAI’nin tarayıcısına uygulanır
    CCBot — Common Crawl’ın tarayıcısına uygulanır
    
    Temel Söz Dizimi Yapısı
    User-agent: [crawler name or *]
    Disallow: [path to block]
    Allow: [path to explicitly allow]
    
    Sitemap: https://yourwebsite.com/sitemap.xml
    Temel söz dizimi kuralları:
    
    Her yönerge kendi satırında olmalıdır
    Kural bloklarını boş bir satırla ayırın
    Yollar büyük/küçük harfe duyarlıdır
    Sondaki eğik çizgi (/) bir dizini ve içindeki her şeyi ifade eder
    Açıklamalar # kullanılarak eklenebilir
    
    Adım 3: Belirli Sayfalar veya Dizinler için İndekslemeyi Devre Dışı Bırakın
    Şimdi en yaygın kullanım durumları için pratik örneklere bakalım.
    Tek Bir Sayfayı Engelle
    User-agent: *
    Disallow: /private-page.html
    Bu, tüm tarayıcıların /private-page.html adresine erişmesini engeller.
    Tüm Bir Dizini Engelle
    User-agent: *
    Disallow: /admin/
    Bu, /admin/ dizinine ve içindeki tüm dosyalara erişimi engeller — arka uç panellerini korumak için idealdir.
    Birden Fazla Sayfayı veya Dizini Engelle
    User-agent: *
    Disallow: /admin/
    Disallow: /staging/
    Disallow: /wp-login.php
    Disallow: /cart/
    Disallow: /checkout/
    Belirli Bir Dosya Türünü Engelle
    Tüm PDF dosyalarının indekslenmesini engellemek için:
    User-agent: *
    Disallow: /*.pdf$
    URL Parametrelerini Engelle
    Sorgu dizelerine sahip URL’lerin taranmasını engelleyin (örneğin, oturum kimlikleri, izleme parametreleri):
    User-agent: *
    Disallow: /*?
    > Dikkatli kullanın: Bu, önemli sayfalandırılmış içerik veya ürün filtreleri içerebilen TÜM sorgu dizelerine sahip URL’leri engeller.
    Yalnızca Googlebot’u Engelle
    User-agent: Googlebot
    Disallow: /private-directory/
    Engellenen Bir Dizin İçinde Bir Alt Dizine İzin Ver
    User-agent: *
    Disallow: /members/
    Allow: /members/public-profile/
    Bu, /members/ içindeki her şeyi engeller, ancak /members/public-profile/ alt dizini hariç.
    Adım 4: Tüm Web Siteniz için İndekslemeyi Devre Dışı Bırakın
    Tüm arama motorlarının web sitenizi taramasını tamamen önlemeniz gerekiyorsa — örneğin geliştirme sırasında, bir hazırlama sunucusunda veya özel bir intranet için — aşağıdakini kullanın:
    User-agent: *
    Disallow: /
    Bu tek direktif, her tarayıcıya sitenizin herhangi bir sayfasına erişmemesini söyler.
    Belirli AI Tarayıcılarını Engelleme
    AI destekli arama ve dil modeli eğitiminin artmasıyla, belirli AI botlarının içeriğinizi taramasını da engellemek isteyebilirsiniz:
    # Block OpenAI's crawler
    User-agent: GPTBot
    Disallow: /
    
    # Block Google's AI training crawler
    User-agent: Google-Extended
    Disallow: /
    
    # Block Common Crawl
    User-agent: CCBot
    Disallow: /
    
    # Block all other crawlers
    User-agent: *
    Disallow: /
    Geliştirmeden Sonra Taramayı Yeniden Etkinleştirin
    Siteniz canlı olmaya hazır olduğunda, Disallow: / direktifini basitçe kaldırın veya bunu boş bir Disallow: ile değiştirin (bu “her şeye izin ver” anlamına gelir):
    User-agent: *
    Disallow:
    Adım 5: Tam, Gerçek Dünya robots.txt Örneği
    İşte tipik bir WordPress web sitesi için iyi yapılandırılmış bir robots.txt dosyası:
    # General rules for all crawlers
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-login.php
    Disallow: /wp-includes/
    Disallow: /xmlrpc.php
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /search/
    Allow: /wp-admin/admin-ajax.php
    
    # Block Bing's crawler from specific directories
    User-agent: Bingbot
    Disallow: /staging/
    
    # Block AI training crawlers
    User-agent: GPTBot
    Disallow: /
    
    User-agent: Google-Extended
    Disallow: /
    
    # Sitemap location
    Sitemap: https://yourwebsite.com/sitemap.xml
    Adım 6: robots.txt Dosyanızı Test Edin
    Kuralları yazmak işin sadece yarısıdır. Test etmek gereklidir — yanlış yapılandırılmış bir robots.txt dosyası, en önemli sayfalarınızın dizine alınmasını yanlışlıkla engelleyebilir ve organik trafikte önemli düşüşlere neden olabilir.
    Google Search Console robots.txt Test Aracı
    
    Google Search Console’da oturum açın
    Özelliğinizi seçin
    Ayarlar → robots.txt bölümüne gidin
    Belirli URL’leri girerek mevcut kurallarınız tarafından izin verilip verilmediğini veya engellenip engellenmediğini kontrol edin
    
    Çevrimiçi robots.txt Doğrulayıcıları
    Google Search Console’a erişim gerektirmeden robots.txt dosyanızı test etmenizi sağlayan birkaç ücretsiz araç vardır:
    
    Merkle’s robots.txt Tester — technicalseo.com/tools/robots-txt/
  • SEO Site Checkup — ayrıntılı robots.txt analizi sağlar
  • Screaming Frog SEO Spider — sitenizi tarar ve robots.txt tarafından engellenen sayfaları işaretler
  • Google Araması Yoluyla Manuel Test

    Ayrıca bir sayfanın dizine alınıp alınmadığını şu şekilde arayarak kontrol edebilirsiniz:

    site:yourwebsite.com/private-page.html

    Sayfa sonuçlarda görünüyorsa, robots.txt kurallarınıza rağmen dizine alınmıştır — bu, sayfanın ona işaret eden harici bağlantılara sahip olabileceğini gösterebilir (Googlebot, robots.txt tarafından tarama engellense bile, bağlantılar aracılığıyla keşfettiği bir URL’yi yine de dizine alabilir).

    Kaçınılması Gereken Yaygın robots.txt Hataları

    Deneyimli web yöneticileri bile bu hataları yapıyor. İşte dikkat etmeniz gerekenler:

    HataSonuçÇözüm
    CSS ve JS dosyalarını engellemeGoogle sayfalarınızı düzgün şekilde işleyemiyor, sıralamayı etkiliyorKritik varlıklar için Allow yönergeleri kullanın
    robots.txt’yi hassas verileri gizlemek için kullanmaBotlar yine de URL’yi harici bağlantılar aracılığıyla dizine alabilirBunun yerine sunucu tarafı kimlik doğrulaması kullanın
    Tüm sitenizi yanlışlıkla engellemeTamamen dizin dışı bırakılma, büyük trafik kaybıDeğişikliklerden sonra her zaman test edin
    Yanlış dosya konumuTarayıcılar dosyayı tamamen yok sayıyorYalnızca kök dizine yerleştirin
    Büyük/küçük harf duyarlılığı hataları/Admin//admin/ Linux sunucularındaDizinlerinizin tam durumunu eşleştirin
    Sitemap yönergesini unutmaTarayıcılar yeni içeriği kaçırabilirHer zaman sitemap URL’nizi ekleyin

    robots.txt ve noindex: Hangisini Kullanmalısınız?

    Bu, teknik SEO’da en yaygın kafa karışıklığı noktalarından biridir:

    **robots.txt Disallow****noindex Meta Tag**
    Ne yaparTaramaları engellerİndekslemeyi engeller
    Garantili mi?Hayır — URL’ler bağlantılar aracılığıyla yine de indekslenebilirEvet — taranırsa, sayfa indekslenmeyecektir
    En iyi kullanımKaynakların tarama erişimini engellemeSayfaları arama sonuçlarından kaldırma
    Sayfa taranmazsa çalışır mı?UygulanamazHayır — etiketi okumak için sayfa taranmalıdır

    En iyi uygulama: Maksimum kontrol için her ikisini de kullanın. robots.txt ile taramaları engelleyin VE <meta name="robots" content="noindex"> öğesini sayfanın HTML’sine ekleyin.

    Farklı Barındırma Ortamlarında robots.txt Yönetimi

    robots.txt yönetme yeteneğiniz barındırma ortamınıza bağlıdır:

    • Paylaşımlı Web Barındırma: cPanel Dosya Yöneticisi veya FTP aracılığıyla erişim. Kök dizin dosyalarınız üzerinde tam kontrol.
    • VPS Barındırma: Tam SSH erişimi, doğrudan dosya düzenleme, robots.txt güncellemelerinin komut dosyası oluşturma ve otomasyonunu sağlar.
    • Özel Sunucular: Maksimum kontrol — sanal ana bilgisayar başına robots.txt yapılandırması, dağıtımların otomasyonu ve CI/CD boru hatları ile entegrasyon.

    Birden fazla alt etki alanına sahip web siteleri için, her alt etki alanının kendi robots.txt dosyasına ilgili kökünde (örneğin, https://blog.yourwebsite.com/robots.txt) ihtiyacı olduğunu unutmayın.

    Ek olarak, web siteniz hassas kullanıcı verilerini veya iş iletişimlerini işliyorsa, güçlü tarama kontrolünü geçerli bir SSL Sertifikası ile eşleştirmek, erişilebilir sayfaların bile güvenli bir şekilde sunulmasını sağlar — bu aynı zamanda onaylanmış bir Google sıralama faktörüdür.

    robots.txt Hakkında Sıkça Sorulan Sorular

    S: robots.txt bir sayfanın dizine alınmasını tamamen engeller mi?

    Hayır. robots.txt taraması engeller, ancak başka bir site engellenen bir sayfaya bağlantı verirse, arama motorları yine de URL’yi dizine alabilir (içerik olmadan). Arama sonuçlarından garantili hariç tutulma için noindex kullanın.

    S: Aynı tarayıcı için birden fazla User-agent bloğu olabilir mi?

    Hayır. Her tarayıcı yalnızca bir kural bloğunda görünmelidir. Aynı User-agent için birden fazla blok öngörülemeyen davranışlara neden olabilir.

    S: robots.txt değişiklikleri ne kadar hızlı etkili olur?

    Google genellikle robots.txt’yi 24–48 saat içinde yeniden tarar. Google Search Console aracılığıyla daha hızlı yeniden tarama talep edebilirsiniz.

    S: WordPress yönetici alanını engellemek için robots.txt kullanmalı mıyım?

    Evet — /wp-admin/ bloğu (/wp-admin/admin-ajax.php izin verirken) WordPress güvenliği ve tarama bütçesi optimizasyonu için yaygın olarak önerilen en iyi uygulamadır.

    S: robots.txt sitemin sıralamasını etkiler mi?

    Dolaylı olarak evet. Uygun robots.txt yapılandırması tarama verimliliğini artırır, yinelenen içerik sorunlarını engeller ve en önemli sayfalarınızın en fazla tarama dikkatini almasını sağlar — bunların tümü SEO performansını olumlu yönde etkiler.

    Sonuç

    robots.txt dosyası, teknik SEO ve web sitesi yönetiminin aldatıcı derecede basit ancak kritik derecede önemli bir bileşenidir. Doğru şekilde yapılandırıldığında, arama motorlarının tarama bütçesini en değerli içeriğinize odaklamasına yardımcı olur, sitenizin hassas alanlarını korur, yinelenen içerik sorunlarını önler ve hangi AI sistemlerinin verileriniz üzerinde eğitim yapabileceğini kontrol etmenizi sağlar.

    Bu kılavuzdan ana çıkarımlar:

    1. robots.txt dosyasını her zaman kök dizininize yerleştirin ve yourwebsite.com/robots.txt adresinde erişilebilir olduğunu doğrulayın
    2. Önemli içeriği yanlışlıkla gizleyebilecek geniş bloklamalar yerine belirli, hedefli yönergeler kullanın
    3. robots.txt dosyasını noindex etiketleriyle birleştirin kapsamlı dizin oluşturma kontrolü için
    4. Her değişikliği test edin Google Search Console veya özel bir robots.txt test aracı kullanarak
    5. AI tarayıcılarını açıkça engelleyin içeriğinizin AI eğitim veri setlerinde kullanılmasını önlemek istiyorsanız
    6. Gerçekten hassas verileri korumak için robots.txt dosyasına tek başına güvenmeyin — bunun yerine uygun kimlik doğrulaması kullanın

    Paylaşımlı Web Hosting üzerinde küçük bir işletme web sitesi çalıştırıyor olsanız veya Dedicated Servers üzerinde karmaşık bir çok sunuculu altyapıyı yönetiyor olsanız, robots.txt dosyasında uzmanlaşmak sitenizin arama motoru görünürlüğünü, güvenliğini ve performansını doğrudan etkileyen temel bir beceridir.

    Bugün mevcut robots.txt yapılandırmanızı denetlemek için zaman ayırın — iyi yerleştirilmiş birkaç yönerge, arama motorlarının web sitenizi nasıl keşfettiği, taradığı ve sıraladığı konusunda önemli bir fark yaratabilir.