1. 網站不想讓搜索引擎抓取怎麼做
操作方式有三種,一種是直接在網站後台進行設置(目前只有wordpress和Zblog程序才有這個功能),另一種就是通過上傳robots文件即可,最後一種就是在伺服器上面利用「網站安全狗」軟體設置靜止抓取的方式。
一、wordpress在程序裡面設置的方式
1-登錄wordpress網站後台
通過以上的步驟就可以讓搜索引擎不抓取網站的方式
2. 如何設置js 與html不讓網路爬蟲抓取
網路了一個方法,僅供參考。
robots.txt文件應該放置在網站根目錄下。
robots.txt文件用法舉例:
1. 允許所有的robot訪問
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
3. 僅禁止Baispider訪問您的網站
User-agent: Baispider
Disallow: /
4. 僅允許Baispider訪問您的網站
User-agent: Baispider
Disallow:
5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用」*」限制訪問url
禁止訪問/cgi-bin/目錄下的所有以」.htm」為後綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用」$」限制訪問url
僅允許訪問以」.htm」為後綴的URL。
User-agent:
Allow: .htm$
Disallow: /
例9. 禁止訪問網站中所有的動態頁面
User-agent:
Disallow: /*?*
10. 禁止Baispider抓取網站上所有圖片
僅允許抓取網頁,禁止抓取任何圖片。
User-agent: Baispider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 僅允許Baispider抓取網頁和.gif格式圖片
允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baispider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 僅禁止Baispider抓取.jpg格式圖片
User-agent: Baispider
Disallow: .jpg$
3. 如何禁止網路爬蟲頻繁爬自己網站
可以設置robots.txt來禁止網路爬蟲來爬網站。
方法:
首先,你先建一個空白文本文檔(記事本),然後命名為:robots.txt;
(1)禁止所有搜索引擎訪問網站的任何部分。
User-agent: *
Disallow: /
(2)允許所有的robots訪問,無任何限制。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
還可以建立一個空文件robots.txt或者不建立robots.txt。
(3)僅禁止某個搜索引擎的訪問(例如:網路spider)
User-agent: BaiSpider
Disallow:/
(4)允許某個搜索引擎的訪問(還是網路)
User-agent: BaiSpider
Disallow:
User-agent: *
Disallow: /
這里需要注意,如果你還需要允許谷歌bot,那麼也是在「User-agent: *」前面加上,而不是在「User-agent: *」後面。
(5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件)。
User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
這樣寫之後,所有搜索引擎都不會訪問這2個目錄。需要注意的是對每一個目錄必須分開說明,而不要寫出「Disallow:/AAA.net/ /admin/」。
4. 如何禁止搜索引擎爬蟲(Spider)抓取網站頁面
一般情況,大家都是希望搜索引擎爬蟲盡可能多的抓取自己的網站,但有時也需要告訴爬蟲不要抓取,比如,不要抓取鏡像頁面等。
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
5. 如何禁止搜索引擎爬蟲抓取網站頁面
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話),給出以下建議:
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加,添加如下語句:
<meta name="robots" content="noindex, nofollow">
3、通過伺服器(如:Linux/nginx )配置文件設置
直接過濾 spider/robots 的IP 段。
6. 怎麼防止網站被爬蟲爬取的幾種辦法
可以在網站的根目錄加上robot.txt文件,這樣就可以阻止爬蟲爬取了。
7. 如何防網站屏蔽爬蟲
你可以在robot.txt中把爬蟲的Agent禁止掉。看網路的參考資料。
8. 如何設置讓網站禁止被爬蟲收錄
1、網站建設好了,當然是希望網頁被搜索引擎收錄的越多越好,但有時候我們也會碰到網站不需要被搜索引擎收錄的情況。要啟用一個新的域名做鏡像網站,主要用於PPC
的推廣,這個時候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網站的所有網頁。因為如果鏡像網站也被搜索引擎收錄的話,很有可能會影響官網在搜索引擎的權重。
2、屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲。
3、通過
robots.txt
文件屏蔽,可以說
robots.txt
文件是最重要的一種渠道(能和搜索引擎建立直接對話)。通過
meta
tag
屏蔽,在所有的網頁頭部文件添加,添加如下語句:
。通過伺服器(如:Linux/nginx
)配置文件設置,直接過濾
spider/robots
的IP
段。