⑴ 怎麼用VBA或網路爬蟲程序抓取網站數據
VBA網抓常用方法
1、xmlhttp/winhttp法:
用xmlhttp/winhttp模擬向伺服器發送請求,接收伺服器返回的數據。
優點:效率高,基本無兼容性問題。
缺點:需要藉助如fiddler的工具來模擬http請求。
2、IE/webbrowser法:
創建IE控制項或webbrowser控制項,結合htmlfile對象的方法和屬性,模擬瀏覽器操作,獲取瀏覽器頁面的數據。
優點:這個方法可以模擬大部分的瀏覽器操作。所見即所得,瀏覽器能看到的數據就能用代碼獲取。
缺點:各種彈窗相當煩人,兼容性也確實是個很傷腦筋的問題。上傳文件在IE里根本無法實現。
3、QueryTables法:
因為它是excel自帶,所以勉強也算是一種方法。其實此法和xmlhttp類似,也是GET或POST方式發送請求,然後得到伺服器的response返回到單元格內。
優點:excel自帶,可以通過錄制宏得到代碼,處理table很方便
。代碼簡短,適合快速獲取一些存在於源代碼的table里的數據。
缺點:無法模擬referer等發包頭
也可以利用採集工具進行採集網頁端的數據,無需寫代碼。
⑵ 如何翻頁抓取網頁數據
我們在抓取數據時,通常不會只抓取網頁當前頁面的數據,往往都會繼續抓取翻頁後的數據。本文就為大家介紹,集搜客GooSeeker網路爬蟲如何在進行數據抓取時,自動抓取翻頁後的數據。
在MS謀數台的爬蟲路線工作台有三種線索方式可以實現自動抓取翻頁後的數據,分別是定點線索、記號線索、相對線索。本文主要介紹比較常用的記號線索。
理箱中創建抓取內容,並完成映射。
具體操作步驟如下:
在整理箱中創建抓取內容,並完成映射,選擇網頁上要抓取的內容映射到整理箱後,跳轉到爬蟲路線工作台設置翻頁線索。
做完抓取內容基本操作後,為了抓取網頁上所有相同產品的數據本規則還使用了樣例復制管理功能
在爬蟲路線工作台新建一條記號線索
具體操作步驟如下:
跳轉到爬蟲路線工作台。
點擊新建,創建一條線索。
選擇線索類型,設置翻頁線索時通常選擇記號線索,本文主要介紹的就是記號線索。
勾選連貫抓取,表示在執行抓取任務時,爬蟲可以在同一個DS打數機窗口內抓取完當前頁面後直接跳轉到下一個頁面進行抓取。
勾選連貫抓取後,目標主題名自動填寫當前規則主題名,在本規則內不應修改,表示翻頁後繼續使用當前規則進行抓取。
具體操作步驟如下:
在爬蟲路線工作台中點擊定位選項。
線索定位選擇偏好class。
網頁結構中的@id屬性每個頁面不同的幾率較大,如果線索定位偏好@id,容易導致在後續的抓取中翻頁失敗。所以一般我們手工修改選擇較為穩定不變的@class屬性,作為線索定位的首選項。
定位翻頁標志,並在網頁結構中找到對應節點
具體操作步驟如下:
1.在網頁上點擊翻頁標志「下一頁」,會彈出該信息的定位提示框,通常是定位到模塊節點(即包含多個下層節點,可雙擊展開,例如A節點)
2.展開A節點,找到「下一頁」對應text節點(text節點即為文本節點)
3.點擊對應text節點會在顯示工作台中顯示。
在網頁結構窗口中找到,對應節點後,即開始進行線索映射。
線索映射——記號映射
具體操作步驟如下:
選擇對應節點進行記號映射,右擊對應的text節點,選擇線索映射後點擊記號映射,在可爬蟲路線工作台記號值中看到「下一頁」,記號定位編號顯示「下一頁」text在網頁結構窗口中的對應編號。
線索映射——線索定位映射
在做完記號映射之後,要進行線索定位映射,就是選擇包含記號標志的范圍進行映射。
具體操作步驟如下:
1.選擇線索定位區塊,線索定位的區塊一般是包含"下一頁"翻頁標志的區塊節點,也就是網頁上的翻頁區塊(在網頁結構窗口中點擊包含 「下一頁」翻頁標志的區塊節點,會在瀏覽器窗口中顯示)。
2.進行線索定位映射,右擊翻頁區塊節點,選擇線索映射→定位→線索1 。完成後定位編號會顯示翻頁區塊節點的定位編號。
這樣就完成了網站翻頁規則的定義,可以使用DS打數機進行翻頁數據抓取。
⑶ 如何讓蜘蛛抓取自己的網站
首先,要讓蜘蛛爬進你的網站,解決辦法:增加外鏈。打個比方,一個網站有了你放的外鏈,蜘蛛進了這個網站,想要出去怎麼辦?只有乖乖的從外鏈——也就是你的網站出去,這樣就進了你的網站,具體做法可以延伸很多。 其次,蜘蛛進了你的站後,必須要讓其很好的抓取,解決辦法:優秀的樹形網站結構。這種結構便於蜘蛛爬行,抓取你的網站內容。 再次,怎麼保證蜘蛛再次訪問你的網站,收錄你的新頁面。解決辦法:固定時間更新文章,吸引蜘蛛爬行,久而久之,蜘蛛就會養成習慣,每天來你的網站抓取信息。因此原創的文章很重要。 總結:做大量的外鏈,可以建blog,交換友情鏈接,每天固定的原創文章,優秀的網站架構(這個前期就要做好,程序方面暫不提),最好還要做網站地圖。
⑷ 如何快速抓取網頁信息
1.通過搜索引擎,找到國家旅遊局的網站,點擊主菜單的【政務公開】——【統計數據】,則可以看到一系列包含數據的網頁。
⑸ 如何讓自己的網站更容易抓取
第一:網站要有邏輯清晰的鏈接層次結構
比較好的站點結構還是樹狀結構,以首頁為節點的樹狀連通,可以通過首頁的鏈接訪問到網站的任意頁面。在建立站點樹狀結構的時候要注意避免過於扁平化的結構,所有的內容頁面全部放在根目錄也不利於網站的目錄權重傳遞。在建站的時候還需要注意的是要避免孤島鏈接,所謂孤島鏈接就是一個頁面通過站內的正常訪問是不能找到頁面的,只有通過直接輸入網址或地圖提交才能找到的頁面。這樣的頁面搜索引擎不容易抓取也不利於用戶對內容的瀏覽和訪問影響用戶體驗。
第二:盡量不使用JS載入頁面內容
網路蜘蛛對網站抓取的時候包含在JS中的內容是不能抓取的,所以站長希望用戶見到的內容不要放在JS中載入,會影響網頁的正常索引,對希望網路抓取的鏈接也不要放在JS中載入,會影響會影響鏈接發現。
第三:新站盡量尋找高質量友鏈交換
友情鏈接對於一個新站來說,其作用性是無法用言語表達的,如果你的新網站,得到一些高質量的友情鏈接的推動的話,你的新站會減少搜索引擎的審核時間。
不過很多新手站長在做友鏈的時候往往會走進誤區,甚至上當還不知道。有的人做友鏈的時候根本就不考察,這樣很容易把自己的網站搭進去出不來。
第四:做好URL優化設計
很多網站現在都十分注重URL的優化,因為搜索引擎爬行和抓取頁面靠的就是鏈接,而這個鏈接就是網頁的URL地址,所以如果URL地址中包含參數的時候,搜索引擎可能讀取有困難,尤其是參數比較多的情況下,而靜態網址相比而言就有天生的優勢,搜索引擎可以毫不費力的進行爬行和抓取,同樣權重的頁面,網站推廣一般的靜態頁面往往排名會更加靠前一些,這也說明了搜索引擎更加喜歡URL規范的頁面。我們一定要注意這一點。
第五:更新高質量的網站內容
更新高質量的網站內容這個站長都知道,但是做好談何容易。更新內容歸納為:必須原創;定時定量更新;相關性強。網站內容要特別注意質量,所謂的質量首先是圍繞關鍵詞的論述,其次在提高原創度的基礎上提高可讀性。
第六:注意網站內容更新的頻率
最後決定收錄的因素還有更新的頻率,一個網站長期不進行更新的話收錄肯定會受到影響,即使這個網站上有非常多的內容沒有被收錄,那麼總體的收錄速度也會明顯減慢,但是企業網站除外,因為他們並沒有過多的產品或者新聞,所以一般更新的頻率較少,但是大部分網頁都會被收錄。而對於很多個人站點來說,更新較為頻繁,網站推廣所以搜索引擎也已經習慣了我們經常進行更新,一般更新的頻率發生變化,或者停止更新,那麼蜘蛛也是很敏感的。所以,保持更新很重要,因為蜘蛛有記憶功能。
⑹ 如何讓搜索引擎更方便抓取網站內容
網站優化都是通過關鍵詞的選取,以及內外鏈的建設,讓搜索引擎爬取網站的信息內容的,從而讓網站的排名更為靠前,提升網站的宣傳效果。要實現搜索引擎方便快速抓取網站內容,需要做好以下工作:
1、提供優質的原創文章內容
無論是首頁的文章還是內頁的文章內容都必須要堅持高質量原創文章這個准則。必須是原創的,有主見的,能夠滿足用戶需求的。現在搜索引擎對於高質量的原創內容都給予極高的權重,這是網站優化所不能放過的。
2、網站的內鏈和外鏈建設
一般我們都會比較注重首頁的權重建設,但是越往內頁,搜索引擎所給予的權重就會越低,為了平衡整個網站的權重,需要我們做好網站的內鏈和外鏈建設。例如外鏈建設可以增加一些優質的同行網站友情鏈接,或者是得一些高權威的網站推薦,通過友情鏈接的方式進行引流,帶動網站的流量。內鏈建設就是通過對網站內頁文章的關鍵詞和主關鍵詞建立的錨文本。超鏈接等內在關系,使搜索引擎因為內頁關鍵詞鏈接次數較多而被優先抓取。
3、重視單頁面的鏈接
每個企業都會在不同時期有不同的優惠或是有新的業務產品出現,在網站上配合宣傳,做一些單頁面鏈接優化。通過單頁面鏈接帶動網站的流量,更容易使蜘蛛抓取網頁內容。
搜浪網路:www.soola.net
⑺ 搜索引擎如何抓取網站的
1 網站有網站地圖 按網站地圖抓取 需要在robots.txt里設置
2 沒有網站地圖 按著站內鏈接抓取每個頁面
搜索引擎可以抓取文字 圖片 flash 但是 不能識別圖片和flash
⑻ 如何抓取網頁上的數據
具體說明是什麼樣的數據,如果只是需要頁面資源(音樂、視頻、圖片等),可以用瀏覽器的嗅探功能獲取。如果想要查看源碼,可以用瀏覽器的「查看網頁源代碼/查看頁面信息」功能獲取。還可以用開發者工具調試網頁。
⑼ 搜索引擎怎樣抓取網站內的網頁
搜索引擎蜘蛛是通過網站內的鏈接到達各個頁面的,到達頁面後對頁面內容進行抓取,分詞,存儲至資料庫,收錄之後搜索這個頁面的鏈接就可以看到快照
展開全部