表白:黑白圣堂血天使,天劍鬼刀阿修羅。
講解對象:/robots.txt文件寫法
作者:融水公子 rsgz
搜索引擎教程搜索引擎教程 http://www.rsgz.top/post/391.html
robot協議
全稱:Robots Exclusion Protocol
中文名:爬蟲協議/機器人協議/網絡爬蟲排除標準
作用:網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取
robots.txt
中文名:robots協議文件
作用:
1 搜索蜘蛛根據robots.txt確定訪問的范圍
2 robots.txt文件不存在,搜索蜘蛛能訪問沒有加密的全站文件
文件位置:通常在站點根目錄下有存在robots.txt
編輯:使用任何一個常見的文本編輯器都能編輯它
特點:robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件
缺點:這個只是扣頭上的協議,如果爬蟲真的要抓取你的所有未加密的文件,你也沒辦法,但是聲明一下對網站的SEO有好處
一個網站有沒有使用robots文件,對于搜索引擎的影響會是這樣的
robot語法
添加注釋
# -----------------------------------------------------------------------------
# author wenjun.zhouwj
# 修改 shipeng.gsp
# fileEncoding = UTF-8
#
# 禁止爬蟲爬取無效URL,提升網站核心靜態(tài)資源抓取及索引效率。
# 無效URL包含:已下線產品線的URL,全動態(tài)URL,需權限驗證的URL,存在問題的舊靜態(tài)URL
# 等各種無需被SE收錄的URL。
# -----------------------------------------------------------------------------
# 對哪些爬蟲生效
User-agent: *
# 要屏蔽的路徑
Disallow: /static/
Disallow: /media/
# 允許抓取的路徑
Allow: /author/
Allow: /category/
Allow: /tag/
Allow: /post/
Allow: /links/
注意:Disallow: /*#* (表示所有帶有#號的鏈接都不收錄)
robots文件在線生成器
推薦大家使用這個小工具--robots文件在線生成器
http://tool.chinaz.com/robots/
生成結果
=== 公眾號:小雪妃
謝謝大家的支持!可以點擊我的頭像,進入我的空間瀏覽更多文章呢。建議大家360doc[www.360doc.com]注冊一個賬號登錄,里面真的有很多優(yōu)秀的文章,歡迎大家的到來。
---