Robots介紹及使用(yòng)注意事項
Robots是網站和(hé)爬蟲之間的(de)協議(yì)。它使用(yòng)簡單直接的(de)文本格式txt來(lái)告訴相應的(de)爬蟲允許的(de)權限。也(yě)就是說,robots.txt是在搜索引擎中訪問網站時(shí)要查看的(de)第一個(gè)文件。當搜索蜘蛛訪問一個(gè)站點時(shí),它會首先檢查robots.txt是否存在于該站點的(de)根目錄中。如果是,搜索Robots将根據文件内容确定訪問範圍;如果Robots不存在,搜索蜘蛛将能夠訪問該站點上所有未受保護的(de)頁面。
1、Robots.txt可(kě)以告訴搜索引擎哪些頁面可(kě)以被爬取,哪些頁面不能被爬取。
2、開發者可(kě)以通(tōng)過robots工具創建、驗證和(hé)更新robots.txt文件,也(yě)可(kě)以在百度上查看robots.txt文件的(de)有效性。
3、注:如果您想包含網站上的(de)所有内容,請不要創建robots.txt文件;Robots工具目前支持48K文件内容檢測,請确保您的(de)Robots.txt文件不太大(dà),并且目錄的(de)最大(dà)長(cháng)度不超過250個(gè)字符。将其放在網站的(de)根目錄中。