A. robots是什麼以及如何正確建立robots文件
robots是什麼?
robots是一個協議,是建立在網站根目錄下的一個以(robots.txt)結尾的文本文件,對搜索引擎蜘蛛的一種限制指令。是蜘蛛程序爬行網站第一個要訪問抓取的頁面,網站可以通過robots協議來告訴搜索引擎蜘蛛程序哪些頁面可以抓取,哪些頁面不可以抓取。
robots協議用來告訴搜索引擎哪些頁面能被抓取,哪些頁面是不能被抓取的,我們通常用 robots來屏蔽網站的一些垃圾頁面、重復頁面、死鏈接通、動態和靜態多路徑的同一頁面。這么做的好處是可以節省一部分的伺服器帶寬,同時也方便蜘蛛程序更好的來抓取網站內容。其實robots就像一個指路標一樣,引導著蜘蛛程序爬取網站頁面。
robots符號介紹
首先我們先來認識一下書寫robots時常用到的幾個字元
User-agent:寫義搜索引擎類型,這里的首字母要大寫U,結尾冒號:後要加一個空格鍵,如 User-agent:* 不帶空格,User-agent: * 帶空格的。
* 這里的星號是一個通配符,匹配0或多個任意字元
$ 是一個結束符
Disallow:表示不希望被訪問的目錄或URL
Allow:表示希望被訪問的目錄或URL
robots的確定寫法
寫法一:禁止所有搜索引擎來抓取網站任何頁面
User-agent: *(此處*號也可以寫成禁止某個蜘蛛抓取,例如網路的 User-agent: Baispider)
Disallow: /
寫法二:允許所有搜索引擎抓取網站任何頁面
User-agent: *
Allow: /
當然如果允許的話也可以寫個空的robots.txt放網站根目錄
其它寫法舉例:
User-agent: * 代表所有搜索引擎
Disallow: /abc/ 表示禁止抓取abc目錄下的目錄
Disallow: /abc/*.html 表示禁止抓取此目錄下所有以 .html為後綴的URL包含子目錄
Disallow: /*?*禁止抓取所有帶?問號的URL
Disallow: /*jpg$ 禁止所有以.jpg結尾格式的圖片
Disallow: /ab 禁止抓取所有以ab 開頭的文件
Disallow: /ab/a.html 禁止抓取ab文件夾下面的a.html 文件
Allow: /ABC/ 表示允許抓取abc目錄下的目錄
網路robots的寫法
淘寶robots的寫法
最後附上我自己網站robots的寫法
好了就先舉例這些,最後讓提醒各位站長,慎重寫robots協議,確保網站上線之前解決所有問題後,建立robots.txt文本到根目錄。
85、Mr宋 94-80 作業
B. 什麼網站可以生成robots.txt
robot.txt可以自己做,也可以用軟體生成,然後上傳到網站根目錄的,是一個給抓取蜘蛛看的關於你網站哪些內容可以看哪些不可以看的文件,一般來說我是自己寫,我之前用軟體(sitemapX)做sitemap文件的時候是可以生成robots文件的~還有一些查詢網站都可以自助生成的~~
C. 如何配置網站Robots.txt拜託了各位 謝謝
網站要設置robots.txt文件,我們就必需先了解什麼是robots.txt?robots.txt是一個協議,而不是一個命令。robots.txt文件是搜索引擎來到一個網站必先看的文件,它是用來告訴搜索引擎在這個網站上什麼可以看,什麼不可以看。robots.txt文件對我們做seo的來說是非常有好處的,所以一個seo出色的網站在這些細節上做的非常到位,許多大型的網站都有設置robots.txt協議。比如:http://www.bjjmall.com
記得採納啊
D. robots.txt應放在網站的哪裡
您好樓主:
robots.txt是要放到根目錄下面的。
所謂的根目錄就是你的網站程序所在的那個目錄,一般的根目錄貌似都是個叫WEB或者www文件夾
robots.txt文件必須駐留在域的根目錄,並且必須命名為「robots.txt」。
位於子目錄中的robots.txt文件無效,因為漫遊器只在域的根目錄這個文件。
例如,http://www..com/robots.txt是有效位置。
但是,http://www..com/mysite/robots.txt不是。
如果您沒有訪問域的根目錄,可以使用限制訪問robots元標記。
【相關閱讀:http://ke..com/view/9274458.htm】
E. 網站robots.txt如何設置嗎
你可以通過FTP找到robots. txt文件,下載到本地修改後再上傳。
主要是屏蔽不讓搜索引擎抓取的文件夾目錄,你可以通過FTP查看所有文件夾對照網站欄目來設置,如果還不知道如何操作可以,參考米拓建站官網的robots.txt文件。
F. 我是一名網路營銷新手,不知道網站做好了以後怎麼做能利於搜索引擎抓取,還有robots是什麼
網上有很多在線生成robots的工具,找一下就行。robots就是一個規則文件,就像是法律,它告訴搜索引擎那些東西可以收錄,那些不可以收錄。另外它還起到給搜索引擎指引的功能,指引搜索引擎的收錄工作。
想有利於搜索引擎收錄方法有幾方面:首先就是網站程序本身,靜態網頁是最好收錄的,就是html這樣的,其次是偽靜態,最差的是動態頁面。另外要多在其他地方進行宣傳推廣,內容經常更新,更新的內容應以原創為主。其他的你可以多在網上看一些這方面的資料,我就不多說了。
G. #網站收錄# 為什麼我的站只收錄了兩頁提示說是robots設置要如何設置
進入網站把根目錄下robots.txt文件刪除掉就OK了
想知道具體設置規則,網路下就OK了,網路裡面有介紹
H. 如何書寫網站的robots文件
robots 是站點與 spider 溝通的重要渠道,站點通過 robots 文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用 robots.txt 文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立 robots.txt 文件。
robots 文件往往放置於根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結束符),每一條記錄的格式如下所示:<field>:<optional space><value><optionalspace>
在該文件中可以使用#進行註解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,後面加上若干 Disallow 和 Allow 行 , 詳細情況如下:
User-agent:該項的值用於描述搜索引擎 robot 的名字。在 "robots.txt" 文件中,如果有多條- User-agent 記錄說明有多個 robot 會受到 "robots.txt" 的限制,對該文件來說,至少要有一條 User-agent 記錄。如果該項的值設為,則對任何 robot 均有效,在 "robots.txt" 文件中,"User-agent:" 這樣的記錄只能有一條。如果在 "robots.txt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那麼名為 "SomeBot" 只受到 "User-agent:SomeBot" 後面的 Disallow 和 Allow 行的限制。
Disallow:該項的值用於描述不希望被訪問的一組 URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以 Disallow 項的值開頭的 URL 不會被 robot 訪問。例如 "Disallow:/help" 禁止 robot 訪問 /help.html、/helpabc.html、/help/index.html,而 "Disallow:/help/" 則允許 robot 訪問 /help.html、/helpabc.html,不能訪問 /help/index.html。"Disallow:" 說明允許 robot 訪問該網站的所有 url,在 "/robots.txt" 文件中,至少要有一條 Disallow 記錄。如果 "/robots.txt" 不存在或者為空文件,則對於所有的搜索引擎 robot,該網站都是開放的。
Allow:該項的值用於描述希望被訪問的一組 URL,與 Disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以 Allow 項的值開頭的 URL 是允許 robot 訪問的。例如 "Allow:/hi" 允許 robot 訪問 /hi.htm、/hicom.html、/hi/com.html。一個網站的所有 URL 默認是 Allow 的,所以 Allow 通常與 Disallow 搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有 URL 的功能。
使用 "*"and"$":Baispider 支持使用通配符 "" 和 "$" 來模糊匹配 url。 "" 匹配 0 或多個任意字元 "$" 匹配行結束符。
最後需要說明的是:網路會嚴格遵守 robots 的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,網路會對 robots 中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協議無法生效。
I. 我是用wordpress做的網站,在哪修改robots.txt謝謝 !急!!
自己用記事本建一個 robots.txt
內容按情況寫。
然後上傳到網站根目錄就可以了。
都是這樣做的,wordpress 沒有自帶 robots.txt
J. 網站中,robots屏蔽應該在哪屏蔽呢屏蔽的是哪些內容
robots是網站的和搜索引擎的一個文件協議,你要做的話要把文件寫好了上傳的網站的根目錄,然後再你網站的域名後面加上robots。txt就能查看到了,那些內容就要看你網的那些內容是不想搜索引擎抓取的就屏蔽那些內容。比如:一般網站都會屏蔽用戶的登陸頁面或者是用戶的資料頁面,或者是網站後台的登陸頁面,或者是網站的死鏈接頁面等很多不想讓搜索引擎抓取的頁面。希望我的回答能幫到你。龍術SEO