Tentang / robots.txt
Singkatnya
Pemilik situs web menggunakan file / robots.txt untuk memberikan petunjuk tentang situs mereka untuk robot web, ini disebut The Robots Exclusion Protocol .Ia bekerja menyukai ini: robot ingin vists URL situs Web, mengatakan http://www.example.com/welcome.html. Sebelum ia melakukannya, itu pengalaman pertama memeriksa http://www.example.com/robots.txt, dan menemukan:User-agent: *
Larang: /
The " User-agent: * "berarti bagian ini berlaku untuk semua robot. The " Disallow: / "menceritakan robot yang seharusnya tidak mengunjungi setiap halaman di situs.Ada dua pertimbangan penting ketika menggunakan / robots.txt:- robot dapat mengabaikan Anda / robots.txt. Terutama malware robot yang memindai web untuk kerentanan keamanan, dan alamat email pemanen digunakan oleh spammer tidak akan memperhatikan.
- file / robots.txt adalah file tersedia untuk umum. Siapapun dapat melihat apa bagian dari server Anda Anda tidak ingin robot untuk digunakan.
Jadi jangan mencoba untuk menggunakan / robots.txt untuk menyembunyikan informasi.Lihat juga:
Larang: /
Rincian
The / robots.txt adalah standar de-facto, dan tidak dimiliki oleh badan standar. Ada dua deskripsi sejarah:- asli 1994 A Standar Robot Exclusion dokumen.
- 1997 Draft Internet spesifikasi Metode untuk Web Robot Kontrol
Selain itu ada sumber daya eksternal:Standar / robots.txt tidak aktif dikembangkan. Lihat Bagaimana dengan pengembangan lebih lanjut dari / robots.txt? untuk diskusi lebih lanjut.Sisa dari halaman ini memberikan gambaran tentang bagaimana menggunakan / robots.txt pada server Anda, dengan beberapa resep sederhana. Untuk mempelajari lebih lanjut lihat juga FAQ .
Cara membuat file / robots.txt
Di mana harus menaruhnya
Jawaban singkatnya: di direktori tingkat atas server web Anda.Jawaban lagi:Ketika robot terlihat untuk "/ robots.txt" file untuk URL, itu strip komponen jalur dari URL (semuanya dari garis miring single pertama), dan menempatkan "/ robots.txt" di tempatnya.Sebagai contoh, untuk " http://www.example.com/shop/index.html , itu akan menghapus " / toko / index.html ", dan menggantinya dengan" / robots.txt ", dan akan berakhir dengan "http://www.example.com/robots.txt".Jadi, sebagai pemilik situs web Anda harus meletakkannya di tempat yang tepat pada server web Anda untuk URL yang dihasilkan untuk bekerja. Biasanya itu adalah tempat yang sama di mana Anda meletakkan utama "situs web Anda index.html "halaman selamat datang. Di mana tepatnya yaitu, dan bagaimana untuk menempatkan file di sana, tergantung pada perangkat lunak web server Anda.Ingatlah untuk menggunakan semua huruf kecil untuk nama file: " robots.txt ", bukan" robots.txt .Lihat juga:
Apa yang harus dimasukkan di dalamnya
The "/ robots.txt" file adalah file teks, dengan satu atau lebih catatan. Biasanya berisi satu catatan data tampak seperti ini:User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ joe /
Dalam contoh ini, tiga direktori dikecualikan.Perhatikan bahwa Anda memerlukan terpisah "Disallow" baris untuk setiap awalan URL yang ingin Anda kecualikan - Anda tidak bisa mengatakan "Disallow: / cgi-bin / / tmp /" pada satu baris. Juga, Anda mungkin tidak memiliki baris kosong dalam catatan, seperti yang biasa digunakan untuk membatasi beberapa catatan.Perhatikan juga bahwa globbing dan ekspresi reguler yang tidak didukung baik dalam User-agent atau Larang baris. The '*' dalam bidang User-agent adalah nilai khusus yang berarti "robot". Secara khusus, Anda tidak dapat memiliki baris seperti "User-agent: * bot *", "Disallow: / tmp / *" atau "Disallow: * gif.".Apa yang ingin Anda kecualikan tergantung pada server Anda. Semuanya tidak secara eksplisit dianulir dianggap permainan yang adil untuk mengambil. Berikut mengikuti beberapa contoh:
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ joe /
Untuk mengecualikan semua robot dari seluruh server
User-agent: *
Larang: /
Larang: /
Untuk mengizinkan semua robot akses lengkap
User-agent: *
Larang:
(Atau hanya membuat file kosong "/ robots.txt", atau tidak menggunakan satu sama sekali)
Larang:
Untuk mengecualikan semua robot dari bagian dari server
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
Untuk mengecualikan robot tunggal
User-agent: BadBot
Larang: /
Larang: /
Untuk memungkinkan robot tunggal
User-agent: Google
Larang:
User-agent: *
Larang: /
Larang:
User-agent: *
Larang: /
Untuk mengecualikan semua file kecuali satu
Ini adalah saat ini agak canggung, karena tidak ada "Allow" lapangan. Cara mudah adalah dengan meletakkan semua file yang akan dilarang ke dalam direktori terpisah, mengatakan "barang", dan meninggalkan satu file di tingkat di atas direktori ini:User-agent: *
Disallow: / ~ joe / stuff /
Atau Anda dapat secara eksplisit melarang semua halaman dianulir:User-agent: *
Disallow: / ~ joe / junk.html
Disallow: / ~ joe / foo.html
Disallow: / ~ joe / bar.html
Disallow: / ~ joe / stuff /
Disallow: / ~ joe / junk.html
Disallow: / ~ joe / foo.html
Disallow: / ~ joe / bar.html