Tentang / robots.txt



Singkatnya


Pemilik situs web menggunakan file / robots.txt untuk memberikan instruksi tentang situs web mereka untuk robot, ini disebut The Robot Exclusion Protocol.

Ia bekerja menyukai ini: robot ingin vists URL situs Web, mengatakan http://www.example.com/welcome.html. Sebelum ia melakukannya, itu pengalaman pertama memeriksa http://www.example.com/robots.txt, dan menemukan:

  User-agent: *
Larang: /

"User-agent: *" berarti bagian ini berlaku untuk semua robot. The "Disallow: /" menceritakan robot yang seharusnya tidak mengunjungi setiap halaman di situs.

Ada dua pertimbangan penting ketika menggunakan / robots.txt:




  • robot bisa mengabaikan / robots.txt Anda.
    Terutama robot malware yang memindai web untuk kerentanan keamanan, dan
    pemanen alamat email yang digunakan oleh spammer tidak akan
    memperhatikan.

  • file / robots.txt adalah file tersedia untuk umum. Siapapun dapat melihat apa bagian dari server Anda Anda tidak ingin menggunakan robot.


Jadi jangan mencoba untuk menggunakan / robots.txt untuk menyembunyikan informasi.

Lihat juga:


  • Dapatkah saya memblokir hanya robot buruk?

  • Mengapa robot ini mengabaikan saya / robots.txt?

  • Apa implikasi keamanan dari / robots.txt?



Rincian


The / robots.txt adalah de-facto standar, dan tidak dimiliki oleh badan standar. Ada dua deskripsi sejarah:


Selain itu ada sumber daya eksternal:


Standar / robots.txt tidak aktif dikembangkan. Lihat Bagaimana pengembangan lebih lanjut dari / robots.txt? untuk diskusi lebih lanjut.


Sisa dari halaman ini memberikan gambaran tentang bagaimana menggunakan
/ robots.txt pada server Anda, dengan beberapa resep sederhana.
Untuk mempelajari lebih lanjut lihat juga FAQ .


Cara membuat file / robots.txt



Dimana untuk menempatkan


Jawaban pendek: dalam direktori top-level web server Anda.

Jawaban lagi:


Ketika robot akan mencari "/ robots.txt" untuk URL, itu strip komponen
jalur dari URL (semuanya dari garis miring single pertama), dan
menempatkan "/ robots.txt" di tempatnya.




Sebagai contoh, untuk "http://www.example.com/shop/index.html, akan menghapus" / toko / index.html ", dan menggantinya dengan" / robots.txt ", dan akan berakhir dengan "http://www.example.com/robots.txt".


Jadi, sebagai pemilik situs web Anda harus meletakkannya di tempat yang
tepat pada server Web Anda untuk itu URL yang dihasilkan untuk bekerja.
Biasanya itu adalah tempat yang sama di mana Anda meletakkan utama "index.html" situs web Anda halaman selamat datang. Di mana tepatnya yaitu, dan bagaimana untuk menempatkan file di sana, tergantung pada perangkat lunak server web Anda.

Ingatlah untuk menggunakan semua huruf kecil untuk nama file: "robots.txt", bukan "robots.txt.

Lihat juga:



Apa yang harus dimasukkan di dalamnya


The "/ robots.txt" file adalah file teks, dengan satu atau lebih catatan. Biasanya berisi satu catatan seperti berikut ini:
 User-agent: *
Larang: / cgi-bin /
Larang: / tmp /
Larang: / ~ joe /

Dalam contoh ini, tiga direktori dikecualikan.


Perhatikan bahwa Anda memerlukan terpisah "Disallow" baris untuk setiap
awalan URL yang ingin Anda kecualikan - Anda tidak bisa mengatakan
"Disallow: / cgi-bin / / tmp /" pada satu baris.
Juga, Anda mungkin tidak memiliki baris kosong dalam catatan, karena mereka digunakan untuk membatasi beberapa catatan.

Perhatikan juga bahwa globbing dan ekspresi reguler tidak didukung baik dalam User-agent atau garis Disallow. The '*' dalam bidang User-agent adalah nilai khusus yang berarti "robot apapun". Khususnya, Anda tidak dapat memiliki baris seperti "User-agent: * bot *", "Disallow: / tmp / *" atau "Disallow: * gif.".

Apa yang Anda ingin mengecualikan tergantung pada server Anda. Semuanya tidak secara eksplisit dilarang dianggap permainan yang adil untuk mengambil. Berikut mengikuti beberapa contoh:


Untuk mengecualikan semua robot dari seluruh server

 User-agent: *
Larang: /



Untuk mengizinkan semua robot akses lengkap

 User-agent: *
Larang:

(Atau hanya membuat "/ robots.txt" kosong berkas, atau tidak menggunakan satu sama sekali)


Untuk mengecualikan semua robot dari bagian server

 User-agent: *
Larang: / cgi-bin /
Larang: / tmp /
Larang: / junk /


Untuk mengecualikan robot tunggal

 User-agent: BadBot
Larang: /


Untuk memungkinkan sebuah robot tunggal

 User-agent: Google
Larang:

User-agent: *
Larang: /


Untuk mengecualikan semua file kecuali satu

Ini saat ini agak canggung, karena tidak ada "Allow" lapangan.
Cara mudah adalah dengan meletakkan semua file yang akan dilarang ke
dalam direktori terpisah, mengatakan "barang", dan meninggalkan satu
file di tingkat di atas direktori ini:
 User-agent: *
Larang: / ~ joe / stuff /

Atau Anda dapat secara eksplisit melarang semua halaman dianulir:
 User-agent: *
Larang: / ~ joe / junk.html
Larang: / ~ joe / foo.html
Larang: / ~ joe / bar.html


Terakhir diperbarui: 23 Agustus 2010 19:18:05


Luncurkan toko Anda hanya dalam 4 detik dengan 
 
Top