Memblokir Atau Menghapus Halaman Menggunakan File robots.txt

Pembuatan alat robots.txt sedang dalam proses. Anda dapat membuat file robots.txt secara manual, atau menggunakan salah satu dari alat generasi robots.txt yang banyak tersedia di web.

Sebuah file robots.txt membatasi akses ke situs dengan robot mesin telusur yang merayapi web tersebut. Bot bekerja secara otomatis, dan sebelum mengakses laman situs, bot memeriksa apakah file robots.txt ada yang mencegahnya mengakses laman tertentu. (Semua robot akan mengikuti perintah dalam file robots.txt, meskipun beberapa robot mungkin mengartikannya secara berbeda. Namun, robots.txt tidak dapat dipaksakan dan beberapa pelaku spam serta pencari masalah lainnya bisa jadi mengabaikannya. Karenanya, sebaiknya gunakan kata sandi untuk melindungi informasi rahasia).


Untuk melihat URL yang telah diblokir dari perayapan Google, kunjungi laman URL yang Diblokir dari bagian Perayapan (Crawl) Alat Webmaster.
Anda hanya memerlukan file robots.txt jika situs menyertakan konten yang tidak ingin disertakan dalam pengindeksan mesin telusur. Jka Anda ingin mesin telusur mengideks semuanya dalam situs Anda, maka Anda tidak memerlukan file robots.txt (bahkan file yang kosong).
Meskipun Google tidak akan merangkak atau mengindeks konten halaman diblokir oleh robots.txt, kita mungkin masih indeks URL jika kita menemukan mereka di halaman lain di web. Akibatnya, URL halaman dan, berpotensi, informasi publik lainnya seperti jangkar teks dalam tautan ke situs, atau judul dari Open Directory Project (www.dmoz.org), dapat muncul dalam hasil pencarian Google.
Untuk menggunakan file robots.txt, Anda harus memiliki akses ke root domain Anda (jika Anda tidak yakin, periksa dengan hoster web Anda). Jika Anda tidak memiliki akses ke root domain, Anda dapat membatasi akses dengan menggunakan robot meta tag.
Untuk sepenuhnya mencegah isi suatu halaman dari yang tercantum dalam indeks web Google bahkan jika link ke situs lain itu, menggunakan tag meta noindex atau x-robot-tagSelama Googlebot menjemput halaman, itu akan melihat meta tag noindex dan mencegah laman tersebut ditampilkan di indeks web. The x-robot-tag header HTTP sangat berguna jika Anda ingin membatasi pengindeksan file non-HTML seperti grafis atau jenis lain dari dokumen.

Membuat File robots.txt
File robots.txt sederhana menggunakan dua aturan:
  • User-agent: robot aturan berikut berlaku untuk
  • Larang: URL yang akan diblokir
Kedua baris dianggap satu entri di file. Anda dapat memasukkan entri sebanyak yang Anda inginkan. Anda dapat menyertakan beberapa baris Disallow dan multiple user-agen di satu entri.
Setiap bagian dalam file robots.txt terpisah dan tidak membangun bagian-bagian sebelumnya. Sebagai contoh:
User-agent: *
Larang: / folder1 /
User-Agent: Googlebot
Larang: / folder2 /

Dalam contoh ini hanya URL pencocokan / folder2 / akan menjadi batasan bagi Googlebot.

Agen-pengguna dan Bot

Agen-pengguna adalah robot mesin telusur khusus. Database Robot Web mendaftar banyak bot umum. Anda dapat mengatur entri agar berlaku untuk bot tertentu (dengan mencantumkan namanya) atau mengaturnya agar berlaku untuk semua bot (dengan mencantumkan tanda bintang). Entri yang berlaku untuk semua bot nampak seperti: 
User-agent: *
Google menggunakan beberapa bot yang berbeda (agen-pengguna). Bot yang digunakan untuk pencarian kami adalah Googlebot. Bot lain seperti Googlebot-Mobile dan Googlebot-Gambar mengikuti aturan yang Anda buat untuk Googlebot, tetapi Anda juga dapat membuat aturan khusus untuk bot khusus ini.

Memblokir Agen-pengguna

Baris Larang mencantumkan laman yang ingin diblokir. Anda dapat mencantumkan URL atau pola tertentu. Entri harus diawali dengan garis miring ke depan (/).

  • Untuk memblokir seluruh situs, gunakan garis miring.
    Larang: /
  • Untuk memblokir direktori dan segala sesuatu di dalamnya, mengikuti nama direktori dengan garis miring.
    Disallow: / junk-direktori /
  • Untuk memblokir halaman, daftar halaman.
    Larang: / private_file.html
  • Untuk menghapus gambar tertentu dari Google Images , tambahkan berikut:
    User-agent: Googlebot-Image
    Disallow: / images / dogs.jpg
  • Untuk menghapus semua gambar di situs Anda dari Google Images:
    User-agent: Googlebot-Image
    Larang: /
  • Untuk memblokir file tipe file tertentu (misalnya, gif), gunakan berikut:
    User-agent: Googlebot
    Disallow: / * gif $.
  • Agar laman situs Anda tidak ditelusuri, saat masih menampilkan iklan AdSense di laman itu, larang semua bot kecuali Mediapartners-Google. Ini mencegah laman Anda muncul dalam hasil pencarian, tetapi memperbolehkan robot Mediapartners-Google menganalisis laman untuk menentukan iklan apa yang akan ditampilkan. Robot Mediapartners-Google tidak berbagi laman dengan agen-pengguna Google lainnya. Misalnya:
    User-agent: *
    Larang: /
    User-agent: Mediapartners-Google
    Izinkan: /
Perlu diingat bahwa perintah peka huruf besar dan kecil. Contohnya, Disallow: /junk_file.asp akan memblokir http://www.example.com/junk_file.asp, tetapi mengizinkan http://www.example.com/Junk_file.asp. Googlebot akan mengabaikan karakter kosong (khususnya baris kosong) dan perintah yang tidak dikenal pada robots.txt.
Googlebot mendukung pengajuan file Sitemap melalui file robots.txt.
Pencocokan Pola
Googlebot (tapi tidak semua mesin pencari) menghormati beberapa pencocokan pola.
  • Untuk mencocokkan urutan karakter, gunakan tanda bintang (*). Misalnya, untuk memblokir akses ke semua subdirektori yang dimulai dengan swasta:
    User-agent: Googlebot
    Disallow: / * pribadi /
  • Untuk memblokir akses ke semua URL yang memuat tanda tanya (lebih khusus, setiap URL yang diawali dengan nama domain, diikuti beberapa string, diikuti dengan tanda tanya, diikuti beberapa string) (?):
    User-agent: Googlebot
    Disallow: / *?
  • Untuk menentukan pencocokan akhir URL, gunakan ($). Misalnya, untuk memblokir setiap URL yang berakhir dengan xls.:
    User-agent: Googlebot
    Disallow: / * xls $.
    Anda dapat menggunakan pencocokan pola ini dalam kombinasi dengan Izinkan direktif. Misalnya, jika (?) menunjukkan sesi ID, Anda mungkin ingin mengecualikan semua URL yang berisi mereka untuk memastikan Googlebot tidak merangkak duplikat halaman. Tapi URL yang diakhiri dengan (?) mungkin versi halaman yang Anda ingin disertakan. Untuk situasi ini, Anda dapat mengatur file robots.txt Anda sebagai berikut:
    User-agent: *
    Izinkan: / * $
    Disallow: / *?
    The Disallow: / * direktif akan memblokir URL yang memuat (?) (Lebih khusus, itu akan memblokir URL yang diawali dengan nama domain, diikuti beberapa string, diikuti dengan tanda tanya, diikuti beberapa string).
    The Allow: / * $ direktif akan mengizinkan URL yang diakhiri (?) (Lebih khusus, itu akan memungkinkan setiap URL yang diawali dengan nama domain Anda, diikuti dengan string, diikuti oleh (?), Tanpa karakter setelah (?)).
Simpan file robots.txt Anda dengan men-download file atau menyalin isi ke file teks dan menyimpan sebagai robots.txt. Simpan file ke direktori tingkat tertinggi dari situs Anda. File robots.txt harus berada di root domain dan harus bernama "robots.txt". Sebuah file robots.txt yang terletak di subdirektori tidak valid, karena bot hanya memeriksa file ini di root domain. Misalnya, http://www.example.com/robots.txt adalah lokasi yang valid, tapi http://www.example.com/mysite/robots.txt tidak.

Menguji File robots.txt

Alat Uji robots.txt akan memberi tahu Anda jika file robots.txt tidak sengaja memblokir Googlebot dari file atau direktori situs, atau jika diizinkan Googlebot akan merayapi file yang seharusnya tidak tampil di web. Saat memasukkan teks file robots.txt yang diusulkan, alat membacanya sama dengan cara yang sama dengan Googlebot, dan mencantumkan masalah yang ditemukan serta efek file tersebut.
Menguji File robots.txt Situs:
  1. Pada Beranda Alat Webmaster, klik situs yang diinginkan.
  2. Di bawah Crawl (Perayapan), klik URL Diblokir .
  3. Jika belum dipilih, klik Uji robots.txt tab.
  4. Salin isi dari file robots.txt Anda, dan tempel ke kotak pertama.
  5. Pada URL box, daftar situs untuk menguji melawan.
  6. Dalam daftar Agen-pengguna, pilih yang Anda inginkan.
Setiap perubahan yang Anda buat dalam alat ini tidak akan disimpan. Untuk menyimpan perubahan, Anda harus menyalin isi dan paste ke dalam file robots.txt Anda.
Alat ini memberikan hasil hanya untuk user-agen (Agen-pengguna) Google (seperti Googlebot). Bot lain mungkin tidak menafsirkan file robots.txt dengan cara yang sama. Misalnya, Googlebot mendukung definisi diperpanjang standar protokol robots.txtIni memahami Izinkan: arahan, serta beberapa pencocokan pola. Jadi sementara alat bantu menunjukkan baris yang mencakup ekstensi ini sebagai dipahami, ingat bahwa ini hanya berlaku untuk Googlebot dan tidak perlu untuk bot lain yang mungkin menjelajah situs Anda.
Sumber:

Bagikan:

0 Komentar