Skip to main content

Tentang robot.txt



Tentang / robots.txt



Singkatnya


Pemilik situs web menggunakan file / robots.txt untuk memberikan instruksi tentang situs web mereka untuk robot, ini disebut The Robot Exclusion Protocol.

Ia bekerja menyukai ini: robot ingin vists URL situs Web, mengatakan http://www.example.com/welcome.html. Sebelum ia melakukannya, itu pengalaman pertama memeriksa http://www.example.com/robots.txt, dan menemukan:

  User-agent: *
Larang: /

"User-agent: *" berarti bagian ini berlaku untuk semua robot. The "Disallow: /" menceritakan robot yang seharusnya tidak mengunjungi setiap halaman di situs.

Ada dua pertimbangan penting ketika menggunakan / robots.txt:




  • robot bisa mengabaikan / robots.txt Anda.
    Terutama robot malware yang memindai web untuk kerentanan keamanan, dan
    pemanen alamat email yang digunakan oleh spammer tidak akan
    memperhatikan.

  • file / robots.txt adalah file tersedia untuk umum. Siapapun dapat melihat apa bagian dari server Anda Anda tidak ingin menggunakan robot.


Jadi jangan mencoba untuk menggunakan / robots.txt untuk menyembunyikan informasi.

Lihat juga:


  • Dapatkah saya memblokir hanya robot buruk?

  • Mengapa robot ini mengabaikan saya / robots.txt?

  • Apa implikasi keamanan dari / robots.txt?



Rincian


The / robots.txt adalah de-facto standar, dan tidak dimiliki oleh badan standar. Ada dua deskripsi sejarah:


Selain itu ada sumber daya eksternal:


Standar / robots.txt tidak aktif dikembangkan. Lihat Bagaimana pengembangan lebih lanjut dari / robots.txt? untuk diskusi lebih lanjut.


Sisa dari halaman ini memberikan gambaran tentang bagaimana menggunakan
/ robots.txt pada server Anda, dengan beberapa resep sederhana.
Untuk mempelajari lebih lanjut lihat juga FAQ .


Cara membuat file / robots.txt



Dimana untuk menempatkan


Jawaban pendek: dalam direktori top-level web server Anda.

Jawaban lagi:


Ketika robot akan mencari "/ robots.txt" untuk URL, itu strip komponen
jalur dari URL (semuanya dari garis miring single pertama), dan
menempatkan "/ robots.txt" di tempatnya.




Sebagai contoh, untuk "http://www.example.com/shop/index.html, akan menghapus" / toko / index.html ", dan menggantinya dengan" / robots.txt ", dan akan berakhir dengan "http://www.example.com/robots.txt".


Jadi, sebagai pemilik situs web Anda harus meletakkannya di tempat yang
tepat pada server Web Anda untuk itu URL yang dihasilkan untuk bekerja.
Biasanya itu adalah tempat yang sama di mana Anda meletakkan utama "index.html" situs web Anda halaman selamat datang. Di mana tepatnya yaitu, dan bagaimana untuk menempatkan file di sana, tergantung pada perangkat lunak server web Anda.

Ingatlah untuk menggunakan semua huruf kecil untuk nama file: "robots.txt", bukan "robots.txt.

Lihat juga:



Apa yang harus dimasukkan di dalamnya


The "/ robots.txt" file adalah file teks, dengan satu atau lebih catatan. Biasanya berisi satu catatan seperti berikut ini:
 User-agent: *
Larang: / cgi-bin /
Larang: / tmp /
Larang: / ~ joe /

Dalam contoh ini, tiga direktori dikecualikan.


Perhatikan bahwa Anda memerlukan terpisah "Disallow" baris untuk setiap
awalan URL yang ingin Anda kecualikan - Anda tidak bisa mengatakan
"Disallow: / cgi-bin / / tmp /" pada satu baris.
Juga, Anda mungkin tidak memiliki baris kosong dalam catatan, karena mereka digunakan untuk membatasi beberapa catatan.

Perhatikan juga bahwa globbing dan ekspresi reguler tidak didukung baik dalam User-agent atau garis Disallow. The '*' dalam bidang User-agent adalah nilai khusus yang berarti "robot apapun". Khususnya, Anda tidak dapat memiliki baris seperti "User-agent: * bot *", "Disallow: / tmp / *" atau "Disallow: * gif.".

Apa yang Anda ingin mengecualikan tergantung pada server Anda. Semuanya tidak secara eksplisit dilarang dianggap permainan yang adil untuk mengambil. Berikut mengikuti beberapa contoh:


Untuk mengecualikan semua robot dari seluruh server

 User-agent: *
Larang: /



Untuk mengizinkan semua robot akses lengkap

 User-agent: *
Larang:

(Atau hanya membuat "/ robots.txt" kosong berkas, atau tidak menggunakan satu sama sekali)


Untuk mengecualikan semua robot dari bagian server

 User-agent: *
Larang: / cgi-bin /
Larang: / tmp /
Larang: / junk /


Untuk mengecualikan robot tunggal

 User-agent: BadBot
Larang: /


Untuk memungkinkan sebuah robot tunggal

 User-agent: Google
Larang:

User-agent: *
Larang: /


Untuk mengecualikan semua file kecuali satu

Ini saat ini agak canggung, karena tidak ada "Allow" lapangan.
Cara mudah adalah dengan meletakkan semua file yang akan dilarang ke
dalam direktori terpisah, mengatakan "barang", dan meninggalkan satu
file di tingkat di atas direktori ini:
 User-agent: *
Larang: / ~ joe / stuff /

Atau Anda dapat secara eksplisit melarang semua halaman dianulir:
 User-agent: *
Larang: / ~ joe / junk.html
Larang: / ~ joe / foo.html
Larang: / ~ joe / bar.html


Terakhir diperbarui: 23 Agustus 2010 19:18:05


Comments

Popular posts from this blog

Kivandanu, Could one of our premium services help you?

http://srudut.com 2011/2/22 John Dalt < John@galtstock.com > You are receiving this message, because you have subscribed to the newslettera1 newsletter on Monday, January 17th, 2011. To ensure that you continue to receive emails from us, add John@galtstock.com to your address book promptly.         Galtstock       Research for Online Investors HOME       ARCHIVE     NEWS      RESOURCES       DIVERSIONS Monday Morning The market set a new 52-week high Friday...where does it end?  Today reports out of Libya don't sound promising.  Protesters have burned the General Assembly building.  BP is evacuating their personnel. Guddafi is reported to be heading to Venezuela. There were also reports yesterday of protests in China.  The police quickly arrested any suspicious actors.  Suffice it to say, this is not a market you can buy and forget.   There are plenty of moving pieces to keep track of...problems and opportuni

Download Qari/Reciters and Translations, Al-Quran ReadPen Data

  Al-Quran ReadPen Data Download Qori/Reciters and Translations   Qori/Reciter Files Sr. Qori/Reciter Name File Size Updates 01. Al Sheikh Ali Abdul Rahman Al Huzaifi 222 MB 17 Mar 2012 02. Al Sheikh Abdul Basit 'Abd us-Samad 387 MB 19 Mar 2012 03. Al Sheikh Mishary bin Rashid Al-Afasy 228 MB 13 Mar 2012 04. Al Sheikh Ahmad Ali Mohammad ‘al Soulayman Al Ajamy 212 MB 17 Mar 2012 05. Al Sheikh Salaah bin Muhammad Al Budair 164 MB 17 Mar 2012 06. Al Sheikh Mohammed Al-Alim Al-Dokhail 417 MB 07 Oct 2011 07. Al Sheikh Sa’ad Al-Ghamdi 201 MB 13 Mar 2012 08. Al Sheikh Mahmoud Khal