Ⅰ 如何用八爪魚數據採集蘋果前三面數據
第一步,打開八爪魚採集器的客戶端,登陸軟體之後新建一個任務,打開你要採集的網站地址。第二步,進入到設計工作流程環節,在界面瀏覽器那輸入你要採集的網址,點擊打開,你就能看到你要採集的網站界面,由於這個網址存在多頁內容需要採集,我們再設置採集規則的時候,可以先建立翻頁循環,先把滑鼠選擇頁面上的【下一頁】按鈕,在彈出的任務對話框,選擇高級選項中的【循環點擊下一頁】,軟體會自動建立一個翻頁循環。第三步,建好翻頁循環好,就是採集當前頁上的內容,我要採集圖片的URL,就選中一個圖片,然後單擊,軟體會自動彈出對話框,先建立一個元素循環列表。當前頁面的所有元素都被抓取後,循環列表則建立完成。第四步,設置執行計劃後,就可以開始採集了。
使用八爪魚可以非常容易的從任何網頁精確採集你需要的數據,生成自定義的、規整的數據格式。八爪魚數據採集系統能做的包括但並不局限於以下內容:金融數據,如季報,年報,財務報告, 包括每日最新凈值自動採集。
Ⅱ 如何進行網站數據的採集
用熊貓智能採集輕松搞定。
Ⅲ 網站數據採集的問題
我平常採集器用火車頭採集器,它和DEDECMS搭配起來還挺不錯的。
不過不知道你是否會用,如果你有一點的技術基礎的話,用起來很方便,如果你是一個很白的菜鳥,怕對你有點困難。【不單是這個採集器對你,所有的採集】。
DEDECMS是PHP+MYSQL搭建的,你可以用火車頭採集器把你需要的內容採集到本地的MYSQL資料庫,然後再發布到你網上的資料庫,基本就可以了。
不懂的話,可以M我.
Ⅳ 怎麼用VBA或網路爬蟲程序抓取網站數據
VBA網抓常用方法
1、xmlhttp/winhttp法:
用xmlhttp/winhttp模擬向伺服器發送請求,接收伺服器返回的數據。
優點:效率高,基本無兼容性問題。
缺點:需要藉助如fiddler的工具來模擬http請求。
2、IE/webbrowser法:
創建IE控制項或webbrowser控制項,結合htmlfile對象的方法和屬性,模擬瀏覽器操作,獲取瀏覽器頁面的數據。
優點:這個方法可以模擬大部分的瀏覽器操作。所見即所得,瀏覽器能看到的數據就能用代碼獲取。
缺點:各種彈窗相當煩人,兼容性也確實是個很傷腦筋的問題。上傳文件在IE里根本無法實現。
3、QueryTables法:
因為它是excel自帶,所以勉強也算是一種方法。其實此法和xmlhttp類似,也是GET或POST方式發送請求,然後得到伺服器的response返回到單元格內。
優點:excel自帶,可以通過錄制宏得到代碼,處理table很方便
。代碼簡短,適合快速獲取一些存在於源代碼的table里的數據。
缺點:無法模擬referer等發包頭
也可以利用採集工具進行採集網頁端的數據,無需寫代碼。
Ⅳ 如何採集其他網站的數據
你可去<<<<億佰數據>>>>看看,他們的自助建站很不錯的,模板各板塊都可以自由設置,按你自己的喜好添加各板塊,圖片,視頻,動畫,音樂,背景都任意設置和添加.功能也比較強大,網站包括各種功能,如:產品發布系統、新聞系統、會員系統、投票系統、廣告系統、招聘系統等等動態功能模塊,頁面隨意增加。運用功能強大的管理平台,輕點滑鼠就能立即製作精美的網站,非常適合中小企業建站。其實說這么多,還不如你自己去親自試用下,他們這自助建站提供在線試用的,進入找到"免費試用",點擊進入,輸入驗證碼,然後直接點下一步,選擇你喜歡的網站模板樣式點安裝使用,就可以試用了.
Ⅵ wordpress怎麼實現自動網頁數據採集和發布
wordpress是一個網站管理程序,中英文除了語言不同,沒有其他區別 美化的話,建議你先找一個喜歡的主題,然後再利用自己的DIV+CSS知識自行修改 博客的基本設置沒多少: 安裝wordpress,尋找並安裝主題,後台設置里可以修改網站標題和網站描述,...
Ⅶ 新建了一個動易網站,現在要將老網站(非動易)的數據導入到新網站里怎麼做
如果老站不是動易的系統導入起來會非常麻煩,在官方的處理方式都是要定製出「數據遷移程序」才能導入的,我推薦你使用新網站當中的採集功能來做,如果有不會的可以到技術中心或者論壇去求助,下面是採集系統的操作示例:
---------------------------------------------------------------
採集系統可以直接深入到站點及其網頁的所有內容,將網頁中的有效數據採集出來(而不僅是網頁或鏈接),並保持數據之間的邏輯關系。對一個新聞站點,它可以將每個新聞的標題、正文等信息單獨採集出來,分別作為欄位存儲在系統中。
採集項目管理
單擊左側管理導航的「採集管理」,出現採集的管理項目:
·文章採集:用於採集設置好的採集項目。
·項目管理:用於建立、管理和復制採集項目。
·過濾管理:用於過濾採集中的標題和正文的字元。
·歷史記錄:已採集的記錄歷史,避免重復採集。
·導入|導出:用於共享遷移採集項目。
文章採集
單擊後台左側管理導航的「採集管理」->「文章採集」,出現「採集系統項目管理」界面:
參數說明:
·選擇:選擇您要採集的項目,可多選用於批量採集操作。
·狀態:如果採集項目沒有通過審核,則選擇框的顏色為灰暗並不可選,其狀態欄顯示×。您要必須在「項目管理中」連續通過「采樣測試」->「設置屬性」這兩步,才能通過審核。通過審核的採集項目狀態欄顯示√。
·上次採集:顯示最新的採集日期。
黑色:表示上一次採集的時間。如:2005-5-8 14:45:44。
紅色:表示當天採集的時間。如:2005-5-10 11:31:32(如果過了當天時間則會變成黑色)。
·採集模式:提供「穩定採集」和「快速採集」兩種模式。
->穩定採集:是針對一台伺服器有多個動易系統時建議選此項,每採集一篇文章讓伺服器休息3秒。這樣當一台伺服器多個動易系統同時採集的時候伺服器不受採集影響。
->快速採集:是針對用戶擁有一台獨立的伺服器或配置非常好的伺服器使用的採集模式。快速採集將發揮採集的最快速度,採集的效率最高。
·歷史記錄:採集項目具有採集統計功能,顯示該項目採集r 成功數和失敗數,點擊成功失敗可看到具體的歷史記錄信息,並提供採集統計功能。
·採集選項:提供「測試採集」和「正文預覽」兩項,分別是來測試建立項目成功後是否有效。
·每頁項目數:您可以下拉選擇每頁顯示的頁數,用於批量採集,比如一次採集20個項目或更多。
·開始採集:勾選了相應採集項目前的選擇框,再單擊本功能按鈕,系統開始進行項目採集與測試。
項目管理
單擊後台左側管理導航的「採集管理」->「項目管理」,出現「採集系統項目管理」界面:
參數說明:
·管理導航:系統提供採集管理導航操作。
->管理首頁:鏈接到採集系統項目管理首頁。
->添加新項目:單擊本功能鏈接添加新的採集項目。
·「操作」列功能鏈接說明:
->編輯:修改你指定的採集項目。
->測試:測試你的採集項目是否,正確,如果顯示採集的正文頁證明成功,否則會提示您第幾步錯誤。
->屬性:設置你採集到的文章,放在那個頻道中,那個欄目中,相對應的屬性設置。
->復制:如果所採集網站的模板相同,可利用本功能復制多個項目,以提高採集效率。
如果導入採集項目後,就需要審核,是否是正確的採集項目,您必須點要審核項目的,
!採集項目只有通過測試和屬性這連續兩項後方可通過審核。測試:保證採集項目正確;屬性:制定採集後的儲存位置。
·操作按鈕:系統提供將已選定的項目「刪除」或「批量設置」二個操作按鈕。
->刪除:選擇您要刪除的採集項目(可多選),選擇後單擊「刪除」按鈕即可刪除選定的採集項目。
->批量設置:選擇您要刪除的採集項目(可多選),選擇後單擊「刪除」按鈕,則可批量修改項目的屬性。
具體項目屬性設置請參閱後章「項目管理」的「屬性設置」。
採集的步驟
下面請認真閱讀採集步驟說明,建立您要採集的項目。單擊頂部的「添加新項目」功能鏈接,開始添加新的採集項目。
基本設置
「添加新項目--基本設置」的界面參數說明:
·管理導航:如果是編輯項目,可任意點擊所屬的項目鏈接。
·添加項目名稱:填寫自定義項目名稱。
·網站名稱:填寫自定義網站名稱。
·新聞列表網址:填寫採集網站的的欄目列表頁(即標題較多的列表網頁,不是首頁)。
·網頁編碼格式:提供GB2312、UTF-8和Big5二種編碼格式。國內的網站都是GB2312 默認選項可不選,如果要採集海外網站就要用 UTF-8。
·網站登錄:選擇不需要登錄或設置參數(如果網站需要登錄後才能瀏覽信息剛要選擇此選項)
設置參數中填寫登錄地址、提交地址、用戶參數和密碼參數。
·項目備註:填寫自定義備注信息。
->填寫好相關參數後,單擊「下一步」按鈕,進行採集列表項目信息設置。
列表設置
本步驟界面中,將顯示基本設置中填寫的採集目標新聞列表頁的信息,並設置採集的列表的相關代碼:
->採集目標網頁:顯示採集目標列表網頁預覽效果。
->採集目標源碼:可以設置是否查看列表網頁的源碼。
->列表設置:設置詳細的列表採集信息。
·列表的開始代碼和列表的結束代碼:填寫上部採集目標源碼框中顯示的採集列表代碼的開始和結束的代碼。請盡量用較少的代碼(如一行內的代碼),以保證代碼的准確性。
!填寫的代碼必須保證是當前列表頁唯一的,可單擊右側的「測試代碼」按鈕是測試填寫的代碼否唯一。
·列表索引分頁:如果列表網頁中有象「上一頁」、「下一頁」這樣的分頁,則要設置索引分頁。
->不作設置。註:當前採集的列表頁不分頁。
->設置標簽。若採集的列表分頁中有「下一頁」和「上一頁」的分頁內容,則要獲取分頁開始與結尾的代碼。
>>下頁開始和結束標記:填寫下一頁開始和結束標記代碼。
例:「共 82 篇新聞 首頁 上一頁 下一頁 尾頁」,這是某列表頁的分頁鏈接。
1.首先我們就要得到「下一頁」的鏈接URL。
例:以下是網頁中的「下一頁」的URL代碼 以下是引用片段:
「〈a href=』/news/List/List_2_2.html』〉下一頁〈/a〉」,
那麼我們就要得到:下頁開始標記 以下是引用片段:
「〈a href=』」,下頁結束標記「』〉下一頁〈/a〉」。
!請注意:開始和結束標記再加上中間採集到的代碼,正好是一個完整的網路URL地址,這就是我們要設置的。
2.要正確的得到下一頁URL地址關鍵是/news/List/List_2_2.html(如果是相對路徑也不用擔心,系統會自動轉換為絕對路徑),您還要單擊右側「測試」按鈕以確認唯一性。
!因為下一頁代碼少,所以不可能全部唯一,但只要有一處代碼為唯一就可以了。
>>索引分頁重定向:系統能智能分析網站的相對路徑,如果特殊情況分析不對,請按上述步驟使用此功能。一般不會用到,如果採集分頁很縱深,並且下一頁代碼是相對路徑。在下一步鏈接設置分析到的下一頁列表的URL和實際不符,應用此功能。在列表設置捕獲相對路徑,如果是動態頁捕獲ID。
例:在索引分頁中填寫實際路徑 http://www.xxxxx.com/xxx/xx/xxx/news/{$ID} {$ID}就是列表捕獲的相對路徑或動態ID。
->批量生成:如果分頁的代碼都是數字,就可用批量生成自動控制分頁。
>>原字元串:例:http://www.xxxxx.com/news/index_1.html 它的分頁都為http://www.xxxxx.com/news/index_2.html,即有數字規律,則可在原字元串中這樣填寫:
「http://www.xxxxx.com/news/index_{$ID}.html」
其中{$ID}代表分頁數。
>>生成范圍:可寫1-10或10-1,意思是採集1到10頁或10到1頁倒序採集。
->手工添加:
如果對方網頁分頁實在是沒有頭緒,則可用手工添加方式添加各個分頁的URL。
!註:一行一個分頁Url地址。事實證明這種效率並不高,為無奈之舉,因為無頭緒的分頁中列表分頁也未必是有頭緒的。
·分析代碼(輔助功能)
在採集頁面時,代碼框中會顯示非常多的代碼,令人頭暈眼化。小巧的分析代碼功能雖不是很強但在一定程度上輔助您快速找到你需求的代碼。
使用:
尋找列表頁頭部代碼:在最上面的視圖中,復制列表第一標題的頭部字元。然後粘貼到「分析網頁字元」框中,選擇向前代碼、字元300,並單擊「分析」按鈕執行分析。這樣就得到了以列表第一標題為開始以上的300字元,包括列表開頭代碼在內。同理在列表尾部標題粘貼,選擇向後代碼並進行分析,則可很快找到列表尾部代碼。
本功能可用於列表頭、列表尾、下一頁、標題(選擇前後代碼)、正文等等。
!註:您復制的視圖代碼要求代碼的唯一性,如果不是唯一就用不了分析。一般列表標題、正文沒有重復。
!小技巧:在正文頁,正文的開頭是沒有重復代碼的。復制正文頁的開頭幾個字元到分析代碼,選擇向前,字元數設大些如1000並執行,結果就很好找了。標題、來源、時間、作者和正文的開頭都在這里。
->填寫好相關參數後,單擊「下一步」按鈕進行採集鏈接設置。
鏈接設置
本步驟界面中,將顯示列表設置中目標新聞列表頁中採集的信息,並設置相關鏈接信息:
->採集列表:顯示目標列表網頁中採集內容的預覽效果。
->採集目標源碼:可以設置是否查看列表網頁的源碼。
->鏈接設置:設置所採集頁面中的鏈接信息。
·鏈接開始代碼和結束代碼:填寫獲得鏈接的代碼。
如果列表分頁正確後,就獲得的一排列表標題代碼。鏈接代碼就要獲得標題的URL鏈接,注意是要獲得標題到正文的Url鏈接。
->使用例舉1:
一個新聞標題的代碼為
以下是引用片段:
「〈td class=』listbg』〉〈a class=』listA』 href=』/Help/Admin/others/394.html』 title=』文章標題:如何去掉圖片隨滑鼠而放大或縮小的功能作 者:壯志更新時間:2005-5-13 20:04:23』 target=』_self』〉如何去掉圖片隨滑鼠而放大或縮小的功能〈/a〉〈img src=』/images/new.gif』 alt=』最新文章』〉〈/td〉」
則鏈接開始代碼和鏈接結束代碼填寫的信息為:
鏈接開始代碼 以下是引用片段:
「〈a class=』listA』 href=』」
鏈接結束代碼 以下是引用片段:
「』 title=』」
->使用例舉2:
一個新聞標題的代碼為 以下是引用片段:
〈td valign="top"〉〈a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank"〉漢堡大師賽冷門迭爆 阿加西不敵非種子選手出局〈/a〉〈span class="ty6"〉(05/11)〈/span〉〈/td〉
則鏈接開始代碼和鏈接結束代碼填寫的信息為:
鏈接開始代碼 以下是引用片段:
「〈a href="」
鏈接結束代碼 以下是引用片段:
「" class="ty5" target="_blank"〉」
這時獲得的字元正好為可運行的鏈接「/Help/Admin/others/394.html」和「/Help/Admin/others/394.html」。在這里,如何獲得有效的鏈接是關鍵。
->單擊「下一步」按鈕對採集的文章進行進行屬性設置。
屬性設置
本步驟為採集的最後一步,設置所採集文章在本網站中詳細的屬性,如所屬欄目、專題、閱讀點數、文章屬性等信息,並可設置過濾選項、採集數量和採集屬性。
參數說明:
·項目名稱:可重新修改採集的項目名稱。
·所屬頻道、所屬欄目、所屬欄目、文章閱讀點數、文章屬性等項目的設置請參閱文章功能頻道相應的說明進行設置。
·內容頁分頁方式:推薦選擇手動分頁,以對方正文分頁為基礎。註:如果選擇自動分頁,分頁的字元數絕不能為0,否則在生成html時會出現問題。
·過濾選項:過濾採集正文頁中的html字元。
IFRAME:過濾內聯。
Object:過濾Falsh和控制項。
Script:過濾js、vbs等腳本。
Class:過濾類。
Div:過濾層。
Span:過濾。
Table、Tr、Td:過濾表格屬性。
Img:過濾圖片。
FONT:過濾字體定義。
A:過濾鏈接,可防止用戶點擊鏈接為其它網址。
Html:過濾。
·採集數量:採集指定文章數或採集列表頁數。如果為空由代表採集所有文章或列表。
·採集屬性:或選擇是否保存圖片、是否對圖片增加水印、倒序採集和立即發布選項。
!如果您要啟用立即發布,發布後要記得生成相應的JS文件。
->填寫好相關參數後,單擊「完成」按鈕,出現成功信息,完成本採集項目設置。
採集信息操作
在添加好採集項目後,下面就可以開始進行信息採集的操作了操作的步驟非常管理,您可以在點擊之間完成大量數據的錄入。
1.單擊後台左側管理導航的「採集管理」->「文章採集」,出現「採集系統項目管理」界面:
2.在選擇相應項目後,單擊「開始採集」按鈕開始採集信息。
!在採集前,您可以先勾選「測試採集」和「正文預覽」兩項,以測試建立的採集項目採集信息是否有效。
3.系統出現信息採集過程界面
在這個界面中,頂部顯示了信息採集的運行過程與統計信息,單擊「停止採集」按鈕可終止本次採集過程。
每一個採集的頁面都顯示了標題、作者、來源、關鍵字、頁面地址和其它分頁、圖片等信息:
系統信息採集完成後,出現成功採集的提示信息:
系統自動返回「採集系統項目管理」界面,並在當前採集項目的「上次採集」列顯示紅色的最新採集日期。
4.在信息採集完成後,您可以進入相應的文章功能頻道,查看採集的信息。如果您在採集項目的「屬性設置」中沒有勾選「立即發布」,您要審核後採集的信息才能顯示在前台。
--------------------------------------------------
如果有不明白的地方直接QQ和我聯系:[email protected]
請給分,謝謝!
Ⅷ 如何用Excel進行網頁數據採集
以下是關鍵代碼:編寫一個採集函數
' MsgBox strURL
'Range("H2").Value = strURL
t = Timer '開始計時
tt = t
nm = Left(Range("J3").Value, 2) & Range("J4").Value
url2 = "https://**.com.cn/**.php?symbol=" & nm
Set objWeb = CreateObject("MSXML2.XMLHTTP") 'Microsoft.XMLHTTP
objWeb.Open "Get", strURL, False, "", ""
objWeb.send
arrBytes = CStr(objWeb.responseBody)
mytime2 = mytime2 + Timer - tt '計時
strReturn = "" '以下將二進制數據流轉換為中文文本
For i = 1 To LenB(arrBytes)
Chr1 = AscB(MidB(arrBytes, i, 1))
If Chr1 < &H80 Then
strReturn = strReturn & Chr(Chr1)
Else
Chr2 = AscB(MidB(arrBytes, i + 1, 1))
strReturn = strReturn & Chr(CLng(Chr1) * &H100 + CInt(Chr2))
i = i + 1
End If
Next i
ReadWeb = strReturn
End Function
Ⅸ 如何採集電商網站數據
做數據採集一般是用爬蟲,但是要避開網站的監控,一般衡量標准就是數據採集的容量、還有採集的頻率。如果自己要做數據採集是需要耗費大量的伺服器,還有數據清洗處理的工作,可以直接調用網上現成的免費數據採集介面
Ⅹ 怎麼採集網站數據
可以使用爬蟲軟體,現在市場上的爬蟲軟體已經很成熟了,對小白和入門新手也都是很友好的。如果不知道用哪個爬蟲的話可以試一下ForeSpdier數據採集引擎。操作簡單易上手,而且還有各種教程想輔助,基本上一個網站10分鍾就可以搞定。下附截圖: