當前位置:首頁 > seo技術

robots.txt文件問題攻略大全

時間:2019-05-27 08:45:11來源:seo技術作者:seo實驗室小編閱讀:57次「手機版」
 

robots.txt文件

robots.txt文件問題攻略大全,本文中seo實驗室將大家常遇到的關于robots.txt文件的相關問題進行匯總,希望大家又長知識了。

1、robots.txt是什么?

解答:robots.txt是一個純文本文件。簡單說就是一個互聯網協議,是針對搜索引擎蜘蛛抓取網站時的一個提前聲明。通過robots.txt文件告訴蜘蛛,該網站的哪些文件你能訪問抓取,哪些文件不要去訪問抓取,從而規避一些隱私文件或不想被收錄的文件被蜘蛛爬取到,起到一個引導蜘蛛的作用。

搜索引擎蜘蛛爬取網站的第一個文件會優先選擇robots.txt文件,所以在引導蜘蛛時robots.txt文件就顯得尤為重要。

robots.txt文件很重要

2、robots.txt寫法

解答:robots.txt文件的寫法,seo實驗室在《robots編寫秘籍》一文中有詳細的說明,這里做幾個重點說明。

user-agent:* 這里的星號,代表泛指所有的搜索引擎,如需要特指某個蜘蛛,則將各個搜索引擎蜘蛛的名稱寫下即可。

各大常用搜索引擎蜘蛛名稱如下:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

熱土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360搜蜘蛛:360spider

屏蔽所有蜘蛛寫法:

user-agent:*

disallow: /

提示:這里的斜杠代表網站根目錄。

屏蔽單個搜索引擎蜘蛛寫法(如屏蔽谷歌):

user-agent:googlebot

Disallow: /

屏蔽單個目錄:

user-agent:*

Disallow: /a/

提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目錄下的所有文件。

屏蔽單個頁面:

user-agent:*

Disallow: /123.html

釋放已屏蔽目錄中的某個文件:

user-agent:*

Disallow: /a/

Allow: /a/img/

屏蔽所有動態頁面:

user-agent:*

Disallow: /*?*

加入網站地圖文件:

user-agent:*

Sitemap: http://www.seo-6.com/sitemap.xml

Sitemap: http://www.seo-6.com/sitemap.html

提示:盡量把鏈接寫完整,免得抓取出錯。

關于robots具體屏蔽那些文件,請閱讀《robots具體禁止什么文件》一文,文中有詳細闡述,這里不細講。

3、robots.txt放在哪里?

解答:robots.txt必須指定放在一個網站的根目錄下,且文件名必須全部小寫。

相應URL地址例如:

http://www.seo-6.com/robots.txt

4、robots.txt文件存在限制指令

解答:這個也就是大家,常看到某些網站,快照描述寫著“由于該網站的robots.txt文件存在限制指令(限制搜索引擎抓取),系統無法提供該頁面的內容”,其實就是該網站屏蔽了搜索引擎抓取,淘寶最為明顯。

網站的robots.txt文件存在限制指令

就是這個寫法:

user-agent:*

disallow: /

解決辦法,進入網站根目錄,找到robots.txt文件,刪除掉里面的“disallow: /”,然后等待快照更新就可以了。

5、robots.txt怎么看?

解答:都是進入網站空間,找到根目錄下的robots.txt文件,打開觀察寫法,文件屏蔽,查看是否有誤或新增即可。直接觀察可以在瀏覽器輸入主域名+robots.txt即可觀察,修改還是要到服務器空間或ftp里面處理。

6、robots.txt可以刪除嗎?

解答:可以刪除,但是對蜘蛛很不友好,建議不要刪除,且把內容寫完整。

7、robots.txt允許收錄

解答:允許收錄也就是寫法,參考第二點寫法規則即可。

8、robots.txt安全防滲透說明

解答:一般robots.txt文件中,我們會寫到屏蔽后臺路徑如下:

user-agent:*

Disallow: /admin/

這個路徑我們不能像上面這樣直接寫出來,很容易被別人窺視加以利用,所以一般我們需要設置復雜一點,并用星號泛指來表示。

如下:

user-agent:*

Disallow: /a*n/

將中間部分用泛指表示出來,蜘蛛是可以根據前后對照識別出文件,但別人想要知道就很難了,可防止被攻擊,增加安全性。

9、robots.txt文件本身安全嗎?

解答;robots.txt本身是沒安全問題的,但如果空間被入侵,robots.txt文件被修改可能就會出錯了。不過也很容易察覺到,一旦你發現異常了,修改回來就好了,所以robots.txt文件也需要時常看看是否有問題,做好安全維護工作。

好了以上就是這些內容,相信大家已經掌握robots要訣了,還沒明白的就多看幾遍。

相關閱讀

Word添加水印和去除水印全攻略

Word水印功能可以給文檔中添加任意的圖片和文字作為背景圖片,這也被我們稱之為“水印”。不僅如此,我們還可以將文檔背景

lxe文件如何打開 打開lxe格式文件的幾個方法

相信許多網友應該精彩碰到過下載了一些lxe格式的文件,但是一直在糾結應該如何打開這些下載過來的文件,最后搞了半天還是無法正常打

怎么測試淘寶標題拆分?方法大全

淘寶寶貝標題的拆分和組合關系著寶貝的訪問量和成交量,所以作為賣家都很重視淘寶標題的設置,大家也都知道不同的拆分和組合方式會帶

抖音企業號最全實用攻略

抖音無疑是今年許多企業進行品牌營銷的重要陣地,企業通過在抖音的品牌營銷,不僅能獲得曝光、擴大影響力,而且能與年輕用戶直接溝通,為

「Word快捷鍵大全」Word2016/2013/2010/2007常用快捷

h2.mulu{ text-decoration:none;background:#333; color:#fff;margin-right:00px;line-height:50px; display:block; height:50px

分享到:

欄目導航

推薦閱讀

熱門閱讀

云南彩票投注站申请