Robots.txt是存放在網(wǎng)站根目錄下的一個(gè)文件,通常情況下,搜索引擎會(huì)對(duì)所有的網(wǎng)站頁(yè)面進(jìn)行抓取分析,如果一個(gè)網(wǎng)站管理員不想讓搜索引擎抓取一些頁(yè)面,比如網(wǎng)站管理后臺(tái),網(wǎng)站次要目錄或者涉及到不愿被搜索引擎抓取公開的內(nèi)容等,則通過創(chuàng)建該文件來(lái)引導(dǎo)各大搜索引擎抓取。當(dāng)搜索引擎抓取一個(gè)站點(diǎn)時(shí),會(huì)首先檢查其根目錄下是否有robots.txt存在。如果存在,則會(huì)按照文件中所規(guī)定的抓取范圍,若不存在,則會(huì)按照正常的方法進(jìn)行抓取。
首先是了解各大搜索引擎spider名稱。
Baiduspider[baidu] Scooter[altavista] ia_archiver[alexa] Googlebot[google] FAST-WebCrawler[alltheweb] MSNBOT[MSN]
SEO中國(guó)的robots.txt的寫法:
User-agent: *
Disallow: /dir/admin/
User-agent是指定搜索引擎robot的名字,即若針對(duì)baidu則會(huì)對(duì)應(yīng)的值是Baiduspider,google對(duì)應(yīng)的是Googlebot等。如果針對(duì)所有搜索引擎均有效,則保留為*值。
Disallow是規(guī)定讓搜索引擎忽略抓取的目錄。例如,http://www.cn-seo.net/dir為SEO中國(guó)的分類目錄地址,而其管理地址是對(duì)搜索引擎抓取沒有任何意義的目錄,則該例中,/dir/admin/為所有搜索引擎所禁止抓取。
Disallow書寫方法:默認(rèn)從根目錄出發(fā),指定忽略的目錄,末尾加上/
指定多個(gè)目錄:
Disallow: /dir/admin/
Disallow: /a/
Disallow: /b/
以上是針對(duì)網(wǎng)站目錄抓取情況進(jìn)行處理,如何進(jìn)行單個(gè)文件處理呢?采用Robots Meta方法。
和其他的meta,如description.keywords等相同,書寫到<head></head>之間
<head>
<title>SEO中國(guó),搜索引擎優(yōu)化,網(wǎng)站優(yōu)化,網(wǎng)站SEO研究</title>
<meta name="Robots" content="index,follow">
<meta name="Keywords" content="SEO中國(guó), 網(wǎng)站排名, Google左側(cè)排名, 搜索引擎優(yōu)化, SEO研究, SEO資訊, SEO下載, SEO案例, 網(wǎng)站推廣">
<meta name="Description" content="SEO中國(guó)致力于網(wǎng)站優(yōu)化,Google左側(cè)排名,搜索引擎優(yōu)化,中國(guó)網(wǎng)站SEO研究,提高中國(guó)網(wǎng)站搜索引擎排名競(jìng)爭(zhēng)力.">
</head>
則規(guī)定了該頁(yè)的抓取方法:正常抓取,順序抓取。
聯(lián)系客服