robots.txt有什(shén)麽作用(yòng)

編輯:雲鴉網絡 時(shí)間:2021-08-03 17:04

robots協議(yì)也(yě)叫robots.txt(統一小寫)是一種存放于網站根目錄下(xià)的(de)ASCII編碼的(de)文本文件,它通(tōng)常告訴網絡搜索引擎的(de)漫遊器(又稱網絡蜘蛛),此網站中的(de)哪些内容是不應被搜索引擎爬蟲獲取的(de),哪些是可(kě)以被爬蟲獲取的(de)。因爲一些系統中的(de)URL是大(dà)小寫敏感的(de),所以robots.txt的(de)文件名應統一爲小寫。robots.txt應放置于網站的(de)根目錄下(xià)。如果想單獨定義搜索引擎的(de)爬蟲訪問子目錄時(shí)的(de)行爲,那麽可(kě)以将自定的(de)設置合并到根目錄下(xià)的(de)robots.txt,或者使用(yòng)robots元數據(Metadata,又稱元數據)。
robots協議(yì)并不是一個(gè)規範,而隻是約定俗成的(de),所以并不能保證網站的(de)隐私。因此有些流氓搜索引擎爬蟲可(kě)能不會遵守robots規則。
 
文件寫法
User-agent: * 這(zhè)裏的(de)*代表的(de)所有的(de)搜索引擎種類,*是一個(gè)通(tōng)配符
Disallow: /admin/ 這(zhè)裏定義是禁止爬尋admin目錄下(xià)面的(de)目錄
Disallow: /require/ 這(zhè)裏定義是禁止爬尋require目錄下(xià)面的(de)目錄
Disallow: /ABC/ 這(zhè)裏定義是禁止爬尋ABC目錄下(xià)面的(de)目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下(xià)的(de)所有以".htm"爲後綴的(de)URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問号 (?) 的(de)網址
Disallow: /.jpg$ 禁止抓取網頁所有的(de).jpg格式的(de)圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下(xià)面的(de)adc.html文件。
Allow: /cgi-bin/ 這(zhè)裏定義是允許爬尋cgi-bin目錄下(xià)面的(de)目錄
Allow: /tmp 這(zhè)裏定義是允許爬尋tmp的(de)整個(gè)目錄
Allow: .htm$ 僅允許訪問以".htm"爲後綴的(de)URL。
Allow: .gif$ 允許抓取網頁和(hé)gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這(zhè)個(gè)頁面是網站地圖
 
網站中重複的(de)内容、頁面或者404信息過多(duō),搜索引擎蜘蛛就會認爲該網站價值較低,從而降低對(duì)該網站的(de)“印象分(fēn)”,這(zhè)就是我們經常聽(tīng)到的(de)“降低權重”,這(zhè)樣網站的(de)排名就不好了(le)。
因此,在網站優化(huà)過程中robots可(kě)以有以下(xià)作用(yòng):
1、屏蔽網站内的(de)死鏈接。
2、屏蔽搜索引擎蜘蛛抓取站點内重複内容和(hé)頁面。