robots.txt有什(shén)麽作用(yòng)

編輯：雲鴉網絡時(shí)間：2021-08-03 17:04

robots協議(yì)也(yě)叫robots.txt（統一小寫）是一種存放于網站根目錄下(xià)的(de)ASCII編碼的(de)文本文件，它通(tōng)常告訴網絡搜索引擎的(de)漫遊器（又稱網絡蜘蛛），此網站中的(de)哪些内容是不應被搜索引擎爬蟲獲取的(de)，哪些是可(kě)以被爬蟲獲取的(de)。因爲一些系統中的(de)URL是大(dà)小寫敏感的(de)，所以robots.txt的(de)文件名應統一爲小寫。robots.txt應放置于網站的(de)根目錄下(xià)。如果想單獨定義搜索引擎的(de)爬蟲訪問子目錄時(shí)的(de)行爲，那麽可(kě)以将自定的(de)設置合并到根目錄下(xià)的(de)robots.txt，或者使用(yòng)robots元數據（Metadata，又稱元數據）。

robots協議(yì)并不是一個(gè)規範，而隻是約定俗成的(de)，所以并不能保證網站的(de)隐私。因此有些流氓搜索引擎爬蟲可(kě)能不會遵守robots規則。

文件寫法

User-agent: * 這(zhè)裏的(de)*代表的(de)所有的(de)搜索引擎種類，*是一個(gè)通(tōng)配符

Disallow: /admin/ 這(zhè)裏定義是禁止爬尋admin目錄下(xià)面的(de)目錄

Disallow: /require/ 這(zhè)裏定義是禁止爬尋require目錄下(xià)面的(de)目錄

Disallow: /ABC/ 這(zhè)裏定義是禁止爬尋ABC目錄下(xià)面的(de)目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下(xià)的(de)所有以".htm"爲後綴的(de)URL(包含子目錄)。

Disallow: /*?* 禁止訪問網站中所有包含問号 (?) 的(de)網址

Disallow: /.jpg$ 禁止抓取網頁所有的(de).jpg格式的(de)圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下(xià)面的(de)adc.html文件。

Allow: /cgi-bin/　這(zhè)裏定義是允許爬尋cgi-bin目錄下(xià)面的(de)目錄

Allow: /tmp 這(zhè)裏定義是允許爬尋tmp的(de)整個(gè)目錄

Allow: .htm$ 僅允許訪問以".htm"爲後綴的(de)URL。

Allow: .gif$ 允許抓取網頁和(hé)gif格式圖片

Sitemap: 網站地圖告訴爬蟲這(zhè)個(gè)頁面是網站地圖

網站中重複的(de)内容、頁面或者404信息過多(duō)，搜索引擎蜘蛛就會認爲該網站價值較低，從而降低對(duì)該網站的(de)“印象分(fēn)”，這(zhè)就是我們經常聽(tīng)到的(de)“降低權重”，這(zhè)樣網站的(de)排名就不好了(le)。

因此，在網站優化(huà)過程中robots可(kě)以有以下(xià)作用(yòng)：

1、屏蔽網站内的(de)死鏈接。

2、屏蔽搜索引擎蜘蛛抓取站點内重複内容和(hé)頁面。

上一篇：HTTP協議(yì)常見錯誤代碼大(dà)全
下(xià)一篇：常用(yòng)的(de)FTP客戶端工具

技術知識

robots.txt有什(shén)麽作用(yòng)