Ⅰ 爬蟲怎麼解決封IP的問題
爬蟲利用代理ip突破頻率限制,這樣可以讓爬蟲程序高效抓取信息。基本上大量的爬蟲都是有任務的,為了加快完成這些任務,使用代理ip這是很有必要的。
本身爬蟲程序一定要在合乎規范的范圍中進行,不能夠影響被訪伺服器的正常運行,更不能把爬取來的信息用作其他用途,這是首先需要去明確的一點,那麼應該怎麼保證爬蟲程序的正常運行並且高效抓取數據呢?
1.高效爬蟲的系統
想要有一個能夠高效抓取信息的爬蟲程序,相關的系統配置一定要到位。比如說:需要高帶寬的網路,如果網路水平太低,平均一個網頁只有幾百kb的速度,那麼基本上就可以放棄操作了;由於代理伺服器的穩定性並不是很穩定的,所以一個完整的爬蟲程序要有自己相應的容錯機制,這樣確保整個爬蟲程序最後能夠完整爬取下來;當然,想要正常爬取還需要一個好用的轉化存儲系統,這樣才能確保程序爬取到的數據能夠正常存儲使用。
2.代理ip突破頻率限制
一般來說,一個網站伺服器檢測是否為爬蟲程序的一個很大的依據就是代理ip,如果網站檢測到同一個代理ip在短時間之內頻繁多次的向網站發出不同的HTTP請求,那麼基本上就會被判定為爬蟲程序,然後在一段時間之內,當前的代理ip信息在這個網頁中就不能正常的使用。
所以如果不使用代理ip,就只能在爬取的過程中延長請求的間隔時間和頻率,以便更好地避免被伺服器禁止訪問,當然,如果手裡有大量的代理ip資源,就可以比較方便的進行抓取工作,也可以選擇自建伺服器或者自己爬取,但是網上免費的代理ip多少會有不安全的地方,使用代理商代理ip可以更好的維護網路安全。
Ⅱ 什麼是網路爬蟲
1、網路爬蟲就是為其提供信息來源的程序,網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常被稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本,已被廣泛應用於互聯網領域。
2、搜索引擎使用網路爬蟲抓取Web網頁、文檔甚至圖片、音頻、視頻等資源,通過相應的索引技術組織這些信息,提供給搜索用戶進行查詢。網路爬蟲也為中小站點的推廣提供了有效的途徑。
網路爬蟲另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。隨著網路的迅速發展,萬維網成為大量信息的載體,如何有效地提取並利用這些信息成為一個巨大的挑戰。
搜索引擎(Search Engine),例如傳統的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:
(1) 不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。
(2)通用搜索引擎的目標是盡可能大的網路覆蓋率,有限的搜索引擎伺服器資源與無限的網路數據資源之間的矛盾將進一步加深。
(3)萬維網數據形式的豐富和網路技術的不斷發展,圖片、資料庫、音頻、視頻多媒體等不同數據大量出現,通用搜索引擎往往對這些信息含量密集且具有一定結構的數據無能為力,不能很好地發現和獲取。
(4)通用搜索引擎大多提供基於關鍵字的檢索,難以支持根據語義信息提出的查詢。
Ⅲ 網路爬蟲是什麼
網路爬蟲又稱網路蜘蛛、網路機器人,它是一種按照一定的規則自動瀏覽、檢索網頁信息的程序或者腳本。網路爬蟲能夠自動請求網頁,並將所需要的數據抓取下來。通過對抓取的數據進行處理,從而提取出有價值的信息。
我們所熟悉的一系列搜索引擎都是大型的網路爬蟲,比如網路、搜狗、360瀏覽器、谷歌搜索等等。每個搜索引擎都擁有自己的爬蟲程序,比如360瀏覽器的爬蟲稱作360Spider,搜狗的爬蟲叫做Sogouspider。
網路搜索引擎,其實可以更形象地稱之為網路蜘蛛(Baispider),它每天會在海量的互聯網信息中爬取優質的信息,並進行收錄。當用戶通過網路檢索關鍵詞時,網路首先會對用戶輸入的關鍵詞進行分析,然後從收錄的網頁中找出相關的網頁,並按照排名規則對網頁進行排序,最後將排序後的結果呈現給用戶。在這個過程中網路蜘蛛起到了非常想關鍵的作用。
網路的工程師們為「網路蜘蛛」編寫了相應的爬蟲演算法,通過應用這些演算法使得「網路蜘蛛」可以實現相應搜索策略,比如篩除重復網頁、篩選優質網頁等等。應用不同的演算法,爬蟲的運行效率,以及爬取結果都會有所差異。
爬蟲可分為三大類:通用網路爬蟲、聚焦網路爬蟲、增量式網路爬蟲。
通用網路爬蟲:是搜索引擎的重要組成部分,上面已經進行了介紹,這里就不再贅述。通用網路爬蟲需要遵守robots協議,網站通過此協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不允許抓取。
robots協議:是一種「約定俗稱」的協議,並不具備法律效力,它體現了互聯網人的「契約精神」。行業從業者會自覺遵守該協議,因此它又被稱為「君子協議」。
聚焦網路爬蟲:是面向特定需求的一種網路爬蟲程序。它與通用爬蟲的區別在於,聚焦爬蟲在實施網頁抓取的時候會對網頁內容進行篩選和處理,盡量保證只抓取與需求相關的網頁信息。聚焦網路爬蟲極大地節省了硬體和網路資源,由於保存的頁面數量少所以更新速度很快,這也很好地滿足一些特定人群對特定領域信息的需求。
增量式網路爬蟲:是指對已下載網頁採取增量式更新,它是一種只爬取新產生的或者已經發生變化網頁的爬蟲程序,能夠在一定程度上保證所爬取的頁面是最新的頁面。
隨著網路的迅速發展,萬維網成為大量信息的載體,如何有效地提取並利用這些信息成為一個巨大的挑戰,因此爬蟲應運而生,它不僅能夠被使用在搜索引擎領域,而且在大數據分析,以及商業領域都得到了大規模的應用。
1)數據分析
在數據分析領域,網路爬蟲通常是搜集海量數據的必備工具。對於數據分析師而言,要進行數據分析,首先要有數據源,而學習爬蟲,就可以獲取更多的數據源。在採集過程中,數據分析師可以按照自己目的去採集更有價值的數據,而過濾掉那些無效的數據。
2)商業領域
對於企業而言,及時地獲取市場動態、產品信息至關重要。企業可以通過第三方平台購買數據,比如貴陽大數據交易所、數據堂等,當然如果貴公司有一個爬蟲工程師的話,就可通過爬蟲的方式取得想要的信息。
爬蟲是一把雙刃劍,它給我們帶來便利的同時,也給網路安全帶來了隱患。有些不法分子利用爬蟲在網路上非法搜集網民信息,或者利用爬蟲惡意攻擊他人網站,從而導致網站癱瘓的嚴重後果。關於爬蟲的如何合法使用,推薦閱讀《中華人民共和國網路安全法》。
為了限制爬蟲帶來的危險,大多數網站都有良好的反爬措施,並通過robots.txt協議做了進一步說明,下面是淘寶網robots.txt的內容:
從協議內容可以看出,淘寶網對不能被抓取的頁面做了規定。因此大家在使用爬蟲的時候,要自覺遵守robots協議,不要非法獲取他人信息,或者做一些危害他人網站的事情。
首先您應該明確,不止Python這一種語言可以做爬蟲,諸如PHP、Java、C/C++都可以用來寫爬蟲程序,但是相比較而言Python做爬蟲是最簡單的。下面對它們的優劣勢做簡單對比:
PHP:對多線程、非同步支持不是很好,並發處理能力較弱;Java也經常用來寫爬蟲程序,但是Java語言本身很笨重,代碼量很大,因此它對於初學者而言,入門的門檻較高;C/C++運行效率雖然很高,但是學習和開發成本高。寫一個小型的爬蟲程序就可能花費很長的時間。
而Python語言,其語法優美、代碼簡潔、開發效率高、支持多個爬蟲模塊,比如urllib、requests、Bs4等。Python的請求模塊和解析模塊豐富成熟,並且還提供了強大的Scrapy框架,讓編寫爬蟲程序變得更為簡單。因此使用Python編寫爬蟲程序是個非常不錯的選擇。
爬蟲程序與其他程序不同,它的的思維邏輯一般都是相似的,所以無需我們在邏輯方面花費大量的時間。下面對Python編寫爬蟲程序的流程做簡單地說明:
先由urllib模塊的request方法打開URL得到網頁HTML對象。
使用瀏覽器打開網頁源代碼分析網頁結構以及元素節點。
通過BeautifulSoup或則正則表達式提取數據。
存儲數據到本地磁碟或資料庫。
當然也不局限於上述一種流程。編寫爬蟲程序,需要您具備較好的Python編程功底,這樣在編寫的過程中您才會得心應手。爬蟲程序需要盡量偽裝成人訪問網站的樣子,而非機器訪問,否則就會被網站的反爬策略限制,甚至直接封殺IP,相關知識會在後續內容介紹。
開課吧廣場-人才學習交流平台
Ⅳ 網路爬蟲技術的概述與研究
爬蟲技術概述
網路爬蟲(Web crawler),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用於互聯網搜索引擎或其他類似網站,可以自動採集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。從功能上來講,爬蟲一般分為數據採集,處理,儲存三個部分。
傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重復上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。
相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題:
(1) 對抓取目標的描述或定義;
(2) 對網頁或數據的分析與過濾;
(3) 對URL的搜索策略。
Ⅳ 通俗的講,網路爬蟲到底是什麼
網路爬蟲,又被稱為網頁蜘蛛、網路機器人,在FOAF社區中間,更經常地被稱為網頁追逐者。網路爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。
傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重復上述過程,直到達到系統的某一條件時停止。
簡單粗暴地理解網路爬蟲的話,就好比一隻蟲子在互聯網上爬來爬去,把它「看」到的信息反饋給用戶。我們平時使用的聽歌軟體,它大體上了解每個人的聽歌喜好,「每日推薦」、「年度聽歌報告」等都會推薦、整理和總結每個人偏好的類型、曲風、歌手等等。
還有一些團購平台,也會根據個人的喜好去推薦休閑娛樂的類型、地點等等,這就是利用網路爬蟲的結果,網路爬蟲根據用戶平日的搜索類型,把所有與之相關的信息全部爬取過來,統統搬運到用戶這里。這時候它就是一隻「益蟲」,是有益的「合法爬蟲」。
說完聽歌和團購,再來說說搶票。甭管飛機票火車票演唱會門票,相信大家十有八九都搶過。先拿演唱會門票來說,疫情之前,追星的少男少女們都好看看演唱會,演唱會里邊屬周傑倫的票最難搶,搶過票的都知道。
你要是搶到了,我敬你的網路爬蟲爬得快。雖然這是句玩笑,可事實上,的確是有一些人或團體通過強行突破網站反爬措施,竊取後台數據,爬走了大量門票,讓粉絲無路可走。
同理,一些針對飛機票、火車票的搶票軟體,也是以此手段抓取航空公司官網或火車購票平台的信息,導致用戶無法通過正常渠道購票。這個時候,網路爬蟲就變成了「害蟲」,也因此被定義為「惡意爬蟲」。
不論是「合法爬蟲」還是「惡意爬蟲」,網路爬蟲本質上就是數據的搬運工,無數據,不爬蟲。因此,要研究爬蟲,就要先明確數據來源。尤其是對小型公司來說,往往需要更多外部數據輔助商業決策。
俗話說,「君子愛財,取之有道」,失了「道」,那肯定就不夠「君子」了。而對於網路爬蟲來說,一旦它變得不再「君子」,它就成為了一隻害蟲。這時候,反爬蟲就應運而生了。在搬運數據的過程中,爬蟲與反爬蟲永遠處於一個此起彼伏、此消彼長的博弈狀態。
隨著數據資源的爆炸式增長,網路爬蟲的應用場景和商業模式也變得更加廣泛而多樣,網路爬蟲作為數據抓取的實踐工具,構成了互聯網開放和信息資源共享理念的基石。爬蟲本身是無罪的,也並未違背法律和道德。
但程序在運行的過程中,有可能對他人經營的網站造成破壞,爬取的數據有可能涉及隱私或機密,數據本身也可能產生法律糾紛。在使用爬蟲時,爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在。
Ⅵ 什麼叫爬蟲技術有什麼作用
爬蟲主要針對與網路網頁,又稱網路爬蟲、網路蜘蛛,可以自動化瀏覽網路中的信息,或者說是一種網路機器人。它們被廣泛用於互聯網搜索引擎或其他類似網站,以獲取或更新這些網站的內容和檢索方式。它們可以自動採集所有其能夠訪問到的頁面內容,以便程序做下一步的處理。
我們絕大多數人每天都使用網路 - 用於新聞,購物,社交以及您可以想像的任何類型的活動。但是,當從網路上獲取數據用於分析或研究目的時,則需要以更技術性的方式查看Web內容 - 將其拆分為由其組成的構建塊,然後將它們重新組合為結構化的,機器可讀數據集。通常文本Web內容轉換為數據分為以下三個基本步驟 :
爬蟲:
Web爬蟲是一種自動訪問網頁的腳本或機器人,其作用是從網頁抓取原始數據 -最終用戶在屏幕上看到的各種元素(字元、圖片)。 其工作就像是在網頁上進行ctrl + a(全選內容),ctrl + c(復制內容),ctrl + v(粘貼內容)按鈕的機器人(當然實質上不是那麼簡單)。
通常情況下,爬蟲不會停留在一個網頁上,而是根據某些預定邏輯在停止之前抓取一系列網址 。 例如,它可能會跟蹤它找到的每個鏈接,然後抓取該網站。當然在這個過程中,需要優先考慮您抓取的網站數量,以及您可以投入到任務中的資源量(存儲,處理,帶寬等)。
解析:
解析意味著從數據集或文本塊中提取相關信息組件,以便以後可以容易地訪問它們並將其用於其他操作。要將網頁轉換為實際上對研究或分析有用的數據,我們需要以一種使數據易於根據定義的參數集進行搜索,分類和服務的方式進行解析。
存儲和檢索:
最後,在獲得所需的數據並將其分解為有用的組件之後,通過可擴展的方法來將所有提取和解析的數據存儲在資料庫或集群中,然後創建一個允許用戶可及時查找相關數據集或提取的功能。
1、網路數據採集
利用爬蟲自動採集互聯網中的信息(圖片、文字、鏈接等),採集回來後進行相應的儲存與處理。並按照一定的規則和篩選標准進行數據歸類形成資料庫文件的一個過程。但在這個過程中,首先需要明確要採集的信息是什麼,當你將採集的條件收集得足夠精確時,採集的內容就越接近你想要的。
2、大數據分析
大數據時代,要進行數據分析,首先要有數據源,通過爬蟲技術可以獲得等多的數據源。在進行大數據分析或者進行數據挖掘的時候,數據源可以從某些提供數據統計的網站獲得,也可以從某些文獻或內部資料中獲得,但從這些獲得數據的方式,有時很難滿足我們對數據的需求,此時就可以利用爬蟲技術,自動地從互聯網中獲取需要的數據內容,並將這些數據內容作為數據源,從而進行更深層次的數據分析。
3、網頁分析
通過對網頁數據進行爬蟲採集,在獲得網站訪問量、客戶著陸頁、網頁關鍵詞權重等基本數據的情況下,分析網頁數據,從中發現訪客訪問網站的規律和特點,並將這些規律與網路營銷策略等相結合,從而發現目前網路營銷活動和運營中可能存在的問題和機遇,並為進一步修正或重新制定策略提供依據。
Ⅶ 大數據時代網路爬蟲為銀行提供了全新的策略
大數據時代網路爬蟲為銀行提供了全新的策略
人類社會已經進入大數據時代,傳統的信息存儲和傳播媒介已逐漸為計算機所替代,並呈現出指數增長的趨勢,成為21世紀最為重要的經濟資源之一。作為掌握大量真實交易數據的商業銀行,面對浩如煙海的信息時,如何實現銀行內部與外部信息、結構性與非結構性數據的緊密結合,更加准確地識別信息,有效地對信息進行挖掘,將數據價值轉化為經濟價值,已經成為當前商業銀行提升核心競爭力的重要途徑之一。網路爬蟲技術的快速發展為商業銀行提升信息精準獲取和有效整合應用能力提供了全新的策略。
網路爬蟲技術概述
網路爬蟲是Spider(或Robots、Crawler)等詞的意譯,是一種高效的信息抓取工具,它集成了搜索引擎技術,並通過技術手段進行優化,用以從互聯網搜索、抓取並保存任何通過HTML(超文本標記語言)進行標准化的網頁信息。其作用機理是:發送請求給互聯網特定站點,在建立連接後與該站點交互,獲取HTML格式的信息,隨後轉移到下一個站點,並重復以上流程。通過這種自動化的工作機制,將目標數據保存在本地數據中,以供使用。網路爬蟲在訪問一個超文本鏈接時,可以從HTML標簽中自動獲取指向其他網頁的地址信息,因而可以自動實現高效、標准化的信息獲取。
隨著互聯網在人類經濟社會中的應用日益廣泛,其所涵蓋的信息規模呈指數增長,信息的形式和分布具有多樣化、全球化特徵,傳統搜索引擎技術已經無法滿足日益精細化、專業化的信息獲取和加工需求,正面臨著巨大的挑戰。網路爬蟲自誕生以來,就發展迅猛,並成為信息技術領域的主要研究熱點。當前,主流的網路爬蟲搜索策略有如下幾種。
深度優先搜索策略
早期的爬蟲開發採用較多的搜索策略是以深度優先的,即在一個HTML文件中,挑選其中一個超鏈接標簽進行深度搜索,直至遍歷這條超鏈接到最底層時,由邏輯運算判斷本層搜索結束,隨後退出本層循環,返回上層循環並開始搜索其他的超鏈接標簽,直至初始文件內的超鏈接被遍歷。深度優先搜索策略的優點是可以將一個Web站點的所有信息全部搜索,對嵌套較深的文檔集尤其適用;而缺點是在數據結構日益復雜的情況下,站點的縱向層級會無限增加且不同層級之間會出現交叉引用,會發生無限循環的情況,只有強行關閉程序才能退出遍歷,而得到的信息由於大量的重復和冗餘,質量很難保證。
寬度優先搜索策略
與深度優先搜索策略相對應的是寬度優先搜索策略,其作用機理是從頂層向底層開始循環,先就一級頁面中的所有超鏈接進行搜索,完成一級頁面遍歷後再開始二級頁面的搜索循環,直到底層為止。當某一層中的所有超鏈接都被選擇過,才會基於該層信息檢索過程中所獲得的下一級超鏈接(並將其作為種子)開始新的一輪檢索,優先處理淺層的鏈接。這種模式的一個優點是:無論搜索對象的縱向結構層級有多麼復雜,都會極大程度上避免死循環;另一個優勢則在於,它擁有特定的演算法,可以找到兩個HTML文件間最短的路徑。一般來講,我們期望爬蟲所具有的大多數功能目前均可以採用寬度優先搜索策略較容易的實現,所以它被認為是最優的。但其缺點是:由於大量時間被耗費,寬度優先搜索策略則不太適用於要遍歷特定站點和HTML文件深層嵌套的情況。
聚焦搜索策略
與深度優先和寬度優先不同,聚焦搜索策略是根據「匹配優先原則」對數據源進行訪問,基於特定的匹配演算法,主動選擇與需求主題相關的數據文檔,並限定優先順序,據以指導後續的數據抓取。這類聚焦爬蟲針對所訪問任何頁面中的超鏈接都會判定一個優先順序評分,根據評分情況將該鏈接插入循環隊列,此策略能夠幫助爬蟲優先跟蹤潛在匹配程度更高的頁面,直至獲取足夠數量和質量的目標信息。不難看出,聚焦爬蟲搜索策略主要在於優先順序評分模型的設計,亦即如何區分鏈接的價值,不同的評分模型針對同一鏈接會給出不同的評分,也就直接影響到信息搜集的效率和質量。同樣機制下,針對超鏈接標簽的評分模型自然可以擴展到針對HTML頁面的評價中,因為每一個網頁都是由大量超鏈接標簽所構成的,一般看來,鏈接價值越高,其所在頁面的價值也越高,這就為搜索引擎的搜索專業化和應用廣泛化提供了理論和技術支撐。當前,常見的聚焦搜索策略包括基於「鞏固學習」和「語境圖」兩種。
從應用程度來看,當前國內主流搜索平台主要採用的是寬度優先搜索策略,主要是考慮到國內網路系統中信息的縱向價值密度較低,而橫向價值密度較高。但是這樣會明顯地遺漏到一些引用率較小的網路文檔,並且寬度優先搜索策略的橫向價值富集效應,會導致這些鏈接量少的信息源被無限制的忽略下去;而在此基礎上補充採用線性搜索策略則會緩解這種狀況,不斷引入更新的數據信息到已有的數據倉庫中,通過多輪的價值判斷去決定是否繼續保存該信息,而不是「簡單粗暴」地遺漏下去,將新的信息阻滯在密閉循環之外。
網路爬蟲技術發展趨勢
近年來,隨著網路爬蟲技術的持續發展,搜索策略也在不斷進行優化。從目前來看,未來網路爬蟲的發展主要呈現以下趨勢。
網頁數據動態化
傳統的網路爬蟲技術主要局限於對靜態頁面信息的抓取,模式相對單一,而近年來,隨著Web2.0/AJAX等技術成為主流,動態頁面由於具有強大的交互能力,成為網路信息傳播的主流,並已取代了靜態頁面成為了主流。AJAX採用了JavaScript驅動的非同步(非同步)請求和響應機制,在不經過網頁整體刷新的情況下持續進行數據更新,而傳統爬蟲技術缺乏對JavaScript語義的介面和交互能力,難以觸發動態無刷新頁面的非同步調用機制並解析返回的數據內容,無法保存所需信息。
此外,諸如JQuery等封裝了JavaScript的各類前端框架會對DOM結構進行大量調整,甚至網頁上的主要動態內容均不必在首次建立請求時就以靜態標簽的形式從伺服器端發送到客戶端,而是不斷對用戶的操作進行回應並通過非同步調用的機制動態繪制出來。這種模式一方面極大地優化了用戶體驗,另一方面很大程度上減輕了伺服器的交互負擔,但卻對習慣了DOM結構(相對不變的靜態頁面)的爬蟲程序提出了巨大挑戰。傳統爬蟲程序主要基於「協議驅動」,而在互聯網2.0時代,基於AJAX的動態交互技術環境下,爬蟲引擎必須依賴「事件驅動」才有可能獲得數據伺服器源源不斷的數據反饋。而要實現事件驅動,爬蟲程序必須解決三項技術問題:第一,JavaScript的交互分析和解釋;第二,DOM事件的處理和解釋分發;第三,動態DOM內容語義的抽取。
數據採集分布化
分布式爬蟲系統是在計算機集群之上運轉的爬蟲系統,集群每一個節點上運行的爬蟲程序與集中式爬蟲系統的工作原理相同,所不同的是分布式需要協調不同計算機之間的任務分工、資源分配、信息整合。分布式爬蟲系統的某一台計算機終端中植入了一個主節點,並通過它來調用本地的集中式爬蟲進行工作,在此基礎上,不同節點之間的信息交互就顯得十分重要,所以決定分布式爬蟲系統成功與否的關鍵在於能否設計和實現任務的協同,此外,底層的硬體通信網路也十分重要。由於可以採用多節點抓取網頁,並能夠實現動態的資源分配,因此就搜索效率而言,分布式爬蟲系統遠高於集中式爬蟲系統。
經過不斷的演化,各類分布式爬蟲系統在系統構成上各具特色,工作機制與存儲結構不斷推陳出新,但主流的分布式爬蟲系統普遍運用了「主從結合」的內部構成,也就是由一個主節點通過任務分工、資源分配、信息整合來掌控其他從節點進行信息抓取;在工作方式上,基於雲平台的廉價和高效特點,分布式爬蟲系統廣泛採用雲計算方式來降低成本,大規模降低軟硬體平台構建所需要的成本投入;在存儲方式方面,當前比較流行的是分布式信息存儲,即將文件存儲在分布式的網路系統上,這樣管理多個節點上的數據更加方便。通常情況下使用的分布式文件系統為基於Hadoop的HDFS系統。
網路爬蟲技術在商業銀行的應用
對商業銀行而言,網路爬蟲技術的應用將助力商業銀行實現四個「最了解」,即「最了解自身的銀行」、「最了解客戶的銀行」、「最了解競爭對手的銀行」和「最了解經營環境的銀行」,具體應用場景如下。
網路輿情監測
網路輿情是當前社會主流輿論的表現方式之一,它主要搜集和展示經互聯網傳播後大眾對部分社會焦點和熱點問題的觀點和言論。對於商業銀行而言,對網路輿情進行監測,是對自身品牌管理和危機公關的重要技術手段,從而以網路作為一面「鏡子」,構建「最了解自身的銀行」。
網路輿情作為當前社會的主流信息媒介之一,具有傳播快、影響大的特點,對於商業銀行而言,創建自動化的網路輿情監控系統十分必要,一方面可以使商業銀行獲得更加精準的社會需求信息,另一方面可以使商業銀行在新的輿論平台上傳播自身的服務理念和服務特色,提升自身的業務拓展水平。由於網路爬蟲在網路輿情監控中有著不可替代的作用,其工作質量將會很大程度上影響網路輿情採集的廣度和深度。依據採集目標的類型,網路爬蟲可以歸納為「通用型網路爬蟲」和「主題型網路爬蟲」兩種。通用型網路爬蟲側重於採集更大的數據規模和更寬的數據范圍,並不考慮網頁採集的順序和目標網頁的主題匹配情況。在當前網路信息規模呈現指數增長的背景下,通用型網路爬蟲的使用受到信息採集速度、信息價值密度、信息專業程度的限制。為緩解這種狀況,主題型網路爬蟲誕生了。不同於通用型網路爬蟲,主題型網路爬蟲更專注採集目標與網頁信息的匹配程度,避免無關的冗餘信息,這一篩選過程是動態的,貫穿於主題型網路爬蟲技術的整個工作流程。
通過運用爬蟲技術對網路輿情進行監測,可以更加全面深入地了解客戶對銀行的態度與評價,洞察銀行自身經營的優勢與不足,同時可以起到防禦聲譽風險、增強品牌效應的作用。
客戶全景畫像
隨著商業銀行競爭日趨激烈,利潤空間進一步壓縮,對客戶營銷和風險控制的要求也日趨提升。在當前的銀行經營體系中,營銷流程管理和風險流程管理,尤其是對潛在客戶和貸後風險的識別與管理,往往需要耗費大量的人力、物力和時間成本。通過引入網路爬蟲技術,可以有效構建面向客戶的全景畫像,打造「最了解客戶的銀行」,這是對傳統「客戶關系管理」以及「非現場風控」技術的有益補充,將會極大促進銀行客戶營銷和對風險的管理。
網路爬蟲程序可以用來構建銀行客戶的全維度信息視圖,即以簡單的個人客戶身份信息或對公客戶網路地址為輸入,經過爬蟲程序的加工,將符合預設規則的客戶信息按特定的格式進行輸出。以特定的基礎數據作為原料,銀行數據人員將關鍵詞輸入爬蟲系統,並結合與客戶信息相關的網路地址信息,封裝成爬蟲種子傳遞給爬蟲程序,隨後,爬蟲程序啟動相應的業務流程,爬取客戶相關信息的網頁並保存下來。此外,從網路輿情監測層面進一步入手,將監測對象從自身延伸至銀行客戶,則能夠通過網路在第一時間了解銀行客戶的客戶對銀行客戶的評價,及時掌握客戶的輿情動態,指導銀行經營決策。
通過採用上述網路爬蟲系統對客戶相關信息進行實時採集、監測、更新,不僅可以更全面地了解客戶實時情況,而且可以對客戶的潛在營銷商機和信用風險進行預判,有效提升客戶營銷和貸後風險管理效率,提升商業銀行綜合效益,形成銀行與客戶共贏的局面。
競爭對手分析
當前,隨著利率市場化的到來和互聯網金融的沖擊,商業銀行間競爭日趨激烈,新的市場參與主體與新的產品層出不窮,業務競爭加劇。在此背景下,充分了解競爭對手動態,打造「最了解競爭對手的銀行」,並以此對自身進行調整,及時搶佔先機,這對各家商業銀行而言都具有愈發重要的意義。
通過構建基於網路爬蟲技術的全網路信息分析和展示平台,可以有效對全網路實時數據進行抓取,及時獲取其他銀行的產品信息與新聞動態,第一時間獲取其他競爭者的狀況,方便整合並用以分析本地行內數據。網路爬蟲通過實時採集數據構建起動態數據平台,抓取網路數據並進行本地存儲,便於未來進行深入的數據挖掘分析應用。網路爬蟲技術不僅使得商業銀行決策層更方便地制定準確的政策,用以支撐公司的運營,而且可以將網路輿情信息的監測對象從自身、客戶延伸至競爭對手,便於實時掌握競爭對手的市場競爭狀況及其優劣勢,實現「知己知彼」,真正達到信息對稱。
行業垂直搜索
垂直搜索是指將搜索范圍細分至某一專業領域,針對初次獲取到的網頁信息進行更深層次的整合,最終形成「純度」更高的專業領域信息。銀行數據人員採用該種方式,可以極大提高有效信息的獲取效率。通過對金融主題進行抓取分析,商業銀行可以更加全面地了解監管政策發展動態,了解區域經濟、行業經濟的發展形勢,以及掌握金融行業自身經營環境動態,及時校驗並調整自身策略,緊跟市場趨勢,打造成為「最了解經營環境的銀行」。
對金融領域垂直搜索的應用,可以提高金融主體的信息處理能力。垂直搜索技術上的最大亮點就是能夠對形式多樣、規模巨大的數據進行有目標地專業化的細分操作,減少垃圾信息、聚集有效信息,提高搜索效率,在某些條件下甚至可以提供實時的數據,最大限度地整合現有大量復雜的網頁數據,使用戶獲得更便捷、更完整、更高效的信息檢索服務。
結語
隨著互聯網技術的發展和數據爆炸,網路爬蟲技術為商業銀行數據採集和信息整合應用提供了全新的技術路徑。站在商業銀行應用實踐的角度,網路爬蟲在銀行日常經營管理中的發展潛力巨大。網路爬蟲技術的應用可以助力銀行轉型成為最了解自身、最了解客戶、最了解競爭對手、最了解經營環境的「智慧銀行」。可以預見,網路爬蟲技術將成為商業銀行提升精細化管理能力、提高決策智能化水平的重要技術手段。
Ⅷ 如何應對網路爬蟲帶來的安全風險
我們的網站上或多或少存在一些頁面涉及到網站的敏感信息不希望在搜索引擎上公開;還有一些頁面是根本沒必要被搜索引擎收錄的:比如網站的管理後台入口。對於SEOER而言有一些頁面如果被收錄後反而會影響關鍵詞著陸頁的排名,或者降低了著陸頁的轉化率,比如電子商務網站的商品評論頁。那麼我們通過什麼樣的方法可以限制搜索引擎收錄此類頁面呢?
1994年6月30日,在經過搜索引擎人員以及被搜索引擎抓取的網站站長共同討論後,正式發布了一份行業規范,即robots.txt協議。這個協議既非法律,也非命令,而是一個自律性的契約,需要各種搜索引擎自覺去遵守這個協議。這個協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
當一個網路爬蟲訪問一個站點時它會首先檢查該站點根目錄下是否存在robots.txt;如果沒有對網站的robots協議進行設置,則爬蟲會盡可能的收錄所有能夠訪問到的頁面,而如果存在該robots協議文件,爬蟲則會遵守該協議,忽略那些不希望被抓取的頁面鏈接,下面我們以http://www..com/robots.txt為例:
User-agent: Googlebot
Disallow: /
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
網路是不希望谷歌搜索引擎的Googlebot爬蟲收錄/ 、/shifen 、/homepage/ 、/cpro 目錄下以及所有/s開頭的搜索結果頁面的。
User-agent:表示爬蟲的名字
Allow:表示允許爬蟲訪問的頁面
Disallow:是指禁止爬蟲訪問的頁面
Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL
Request-rate: 用來限制URL的讀取頻率
除了上述robots.txt文件之外,我們還可以針對每一個頁面,在網頁的原信息中設置該頁面是否允許被收錄:
noindex: 不索引此網頁
nofollow:不通過此網頁的鏈接索引搜索其它的網頁
none: 將忽略此網頁,等價於「noindex,nofollow」
index: 索引此網頁
follow:通過此網頁的鏈接索引搜索其它的網頁
all: 搜索引擎將索引此網頁與繼續通過此網頁的鏈接索引,等價於index,follow。
舉例 〈meta name= 「 Baispider 」 content= 「 none" /〉 是不允許網路蜘蛛索引該頁面,並且不允許爬行該頁面中的所有鏈接。
還有一種方法,就是在超級鏈接的rel屬性中填寫「nofollow」,形如 〈a rel=」nofollow」 href=」*」〉 超級鏈接 〈/a〉 ,表示搜索引擎不要跟蹤鏈接。
但是所有上述方法都是基於Robot的自律性協議,並非強制執行的法律法規。如果遇到不遵守該協議的網路爬蟲瘋狂的抓取網站頁面並對網站性能產生了嚴重影響,更為有效的方使用入侵檢測系統(IDS)入侵防護系統( IPS )網路設備。
Ⅸ 數據爬蟲行為如何合規
前言
由於網路數據爬取行為具有高效檢索、批量復制且成本低廉的特徵,現已成為許多企業獲取數據資源的方式。也正因如此,一旦爬取的數據設計他人權益時,企業將面臨諸多法律風險。本文將從數據爬取行為的相關概述、數據爬取相關立法規定,結合數據爬取行為近期典型案例,探討數據爬取行為的合規要點。
一、數據爬取行為概述
數據爬取行為是指利用網路爬蟲或者類似方式,根據所設定的關鍵詞、取樣對象等規則,自動地抓取萬維網信息的程序或者腳本,並對抓取結果進行大規模復制的行為。
使用爬蟲爬取數據的過程當中,能否把握合法邊界是關系企業生死存亡的問題。近些年大數據、人工智慧的廣泛使用,對各種數據的剛性需求,使數據行業遊走在「灰色邊緣」。面對網路數據安全的「強監管」態勢,做好數據合規、數據風控刻不容緩。當前我國並沒有相關法律法規對數據爬取行為進行專門規制,而是根據爬取數據的不同「質量」,主要通過《中華人民共和國著作權法》(以下簡稱「《著作權法》)、《中華人民共和國反不正當競爭法》(以下簡稱「《反不正當競爭法》」)、《中華人民共和國刑法》(以下簡稱「《刑法」》)等現有法律法規進行規制。
二、數據爬取相關法律責任梳理
(一)承擔刑事責任
1、非法侵入計算機信息系統罪
《刑法》第285條第1款規定了「非法侵入計算機信息系統罪」,違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,處三年以下有期徒刑或者拘役。
典型案例:李某等非法侵入計算機信息系統罪(2018)川3424刑初169號
本案中,被告人李某使用「爬蟲」軟體,大量爬取全國各地及涼山州公安局交警支隊車管所公告的車牌放號信息,之後使用軟體採用多線程提交、批量刷單、驗證碼自動識別等方式,突破系統安全保護措施,將爬取的車牌號提交至「交通安全服務管理平台」車輛報廢查詢系統,進行對比,並根據反饋情況自動記錄未注冊車牌號,建立全國未注冊車牌號資料庫。之後編寫客戶端查詢軟體,由李某通過QQ、淘寶、微信等方式,以300-3000元每月的價格,分省市販賣資料庫查閱許可權。
法院認為,被告人李文某為牟取私利,違法國家規定,侵入國家事務領域的計算機信息系統,被告人的行為均已構成非法侵入計算機信息系統罪。
2、非法獲取計算機信息系統數據罪
《刑法》第285條第2款規定如下,違反國家規定,侵入前款規定以外的計算機信息系統或者採用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據,或者對該計算機信息系統實施非法控制,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。同時,《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件應用刑事案件應用法律若干問題的解釋》第1條對「情節嚴重」作出了具體的規定:「非法獲取計算機信息系統數據或者非法控制計算機信息系統,具有下列情形之一的,應當認定為刑法第二百八十五條第二款規定的「情節嚴重」:(一)獲取支付結算、證券交易、期貨交易等網路金融服務的身份認證信息十組以上的;(二)獲取第(一)項以外的身份認證信息五百組以上的;(三)非法控制計算機信息系統二十台以上的;(四)違法所得五千元以上或者造成經濟損失一萬元以上的;(五)其他情節嚴重的情形。」
典型案例:李某、王某等非法獲取計算機信息系統數據、非法控制計算機系統案(2021)滬0104刑初148號
本案中,益采公司在未經淘寶(中國)軟體有限公司授權許可的情況下,經李某授意,益采公司部門負責人被告人王某、高某等人分工合作,以使用IP代理、「X-sign」簽名演算法等手段突破、繞過淘寶公司的「反爬蟲」防護機制,再通過數據抓取程序大量非法抓取淘寶公司存儲的各主播在淘寶直播時的開播地址、銷售額、觀看PV、UV等數據。至案發,益采公司整合非法獲取的數據後對外出售牟利,違法所得共計人民幣22萬余元。法院認為被告人李某、王某、高某等人構成非法獲取計算機信息系統數據罪,分別判處有期徒刑二年六個月、一年三個月不等,並處罰金。
法院認為,被告人李文某為牟取私利,違法國家規定,侵入國家事務領域的計算機信息系統,被告人的行為均已構成非法侵入計算機信息系統罪。
3、提供侵入、非法控制計算機信息系統程序、工具罪
《刑法》第285條第3款對該罪規定如下,提供專門用於侵入、非法控制計算機信息系統的程序、工具,或者明知他人實施侵入、非法控制計算機信息系統的違法犯罪行為而為其提供程序、工具,情節嚴重的,依照前款的規定處罰。《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件應用刑事案件應用法律若干問題的解釋》中還列舉了「具有避開或者突破計算機信息系統安全保護措施,未經授權或者超越授權獲取計算機信息系統數據的功能的」等類型的程序、工具。
典型案例:陳輝提供侵入、非法控制計算機信息系統程序、工具罪(2021)粵0115刑初5號
本案中,被告人陳輝為牟取非法利益,在本區編寫爬蟲軟體用於在浙江淘寶網路有限公司旗下的大麥網平台上搶票,並以人民幣1888元到6888元不等的價格向他人出售該軟體,非法獲利人民幣12萬余元。2019年7月11日,被告人陳輝被公安機關抓獲。經鑒定,上述爬蟲軟體具有以非常規的方式構造和發送網路請求,模擬用戶在大麥網平台手動下單和購買商品的功能;具有以非常規手段模擬用戶識別和輸入圖形驗證碼的功能,該功能可繞過大麥網平台的人機識別驗證機制,以非常規方式訪問大麥網平台的資源。
本院認為,被告人陳輝提供專門用於侵入、非法控制計算機信息系統程序、工具,情節特別嚴重,依法應予懲處。
4、 侵犯公民個人信息罪
《刑法》第253條中規定了該罪,違反國家有關規定,向他人出售或者提供公民個人信息,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。違反國家有關規定,將在履行職責或者提供服務過程中獲得的公民個人信息,出售或者提供給他人的,依照前款的規定從重處罰。竊取或者以其他方法非法獲取公民個人信息的,依照第一款的規定處罰。
典型案例:杭州魔蠍數據 科技 有限公司、周江翔、袁冬侵犯公民個人信息罪(2020)浙0106刑初437號
本案中,被告人周江翔系魔蠍公司法定代表人、總經理,負責公司整體運營,被告人袁冬系魔蠍公司技術總監,系技術負責人,負責相關程序設計。魔蠍公司主要與各網路貸款公司、小型銀行進行合作,為網路貸款公司、銀行提供需要貸款的用戶的個人信息及多維度信用數據,方式是魔蠍公司將其開發的前端插件嵌入上述網貸平台A**中,在網貸平台用戶使用網貸平台的APP借款時,貸款用戶需要在魔蠍公司提供的前端插件上,輸入其通訊運營商、社保、公積金、淘寶、京東、學信網、徵信中心等網站的賬號、密碼,經過貸款用戶授權後,魔蠍公司的爬蟲程序代替貸款用戶登錄上述網站,進入其個人賬戶,利用各類爬蟲技術,爬取(復制)上述企、事業單位網站上貸款用戶本人賬戶內的通話記錄、社保、公積金等各類數據。
法院認為,被告單位杭州魔蠍數據 科技 有限公司以其他方法非法獲取公民個人信息,情節特別嚴重,其行為已構成侵犯公民個人信息罪。被告人周江翔、袁冬分別系對被告單位魔蠍公司侵犯公民個人信息行為直接負責的主管人員和其他直接責任人員,其行為均已構成侵犯公民個人信息罪。
5、侵犯著作權罪
根據《刑法》第217條規定,以營利為目的,有下列侵犯著作權或者與著作權有關的權利的情形之一,違法所得數額較大或者有其他嚴重情節的,處三年以下有期徒刑,並處或者單處罰金;違法所得數額巨大或者有其他特別嚴重情節的,處三年以上十年以下有期徒刑,並處罰金:(一)未經著作權人許可,復制發行、通過信息網路向公眾傳播其文字作品、音樂、美術、視聽作品、計算機軟體及法律、行政法規規定的其他作品的;(二)出版他人享有專有出版權的圖書的;(三)未經錄音錄像製作者許可,復制發行、通過信息網路向公眾傳播其製作的錄音錄像的;(四)未經表演者許可,復制發行錄有其表演的錄音錄像製品,或者通過信息網路向公眾傳播其表演的;(五)製作、出售假冒他人署名的美術作品的;(六)未經著作權人或者與著作權有關的權利人許可,故意避開或者破壞權利人為其作品、錄音錄像製品等採取的保護著作權或者與著作權有關的權利的技術措施的。
典型案例:譚某某等侵犯著作權罪(2020)京0108刑初237號
本案中,被告鼎閱公司自2018年開始,在覃某某等12名被告人負責管理或參與運營下,未經掌閱 科技 股份有限公司、北京幻想縱橫網路技術有限公司等權利公司許可,利用網路爬蟲技術爬取正版電子圖書後,在其推廣運營的「鴻雁傳書」「TXT全本免費小說」等10餘個App中展示,供他人訪問並下載閱讀,並通過廣告收入、付費閱讀等方式進行牟利。根據經公安機關依法提取收集並經勘驗、檢查、鑒定的涉案侵權作品信息數據、賬戶交易明細、鑒定結論、廣告推廣協議等證據,法院查明,涉案作品侵犯掌閱 科技 股份有限公司、北京幻想縱橫網路技術有限公司享有獨家信息網路傳播權的文字作品共計4603部,侵犯中文在線數字出版集團股份有限公司享有獨家信息網路傳播權的文字作品共計469部。
法院認為,鼎閱公司、直接負責的主管人員覃某某等12名被告人以營利為目的,未經著作權人許可,復制發行他人享有著作權的文字作品,情節特別嚴重,其行為均已構成侵犯著作權罪,應予懲處。
(2) 構成不正當競爭
我國《反不正當競爭法》第12條規定:「經營者利用網路從事生產經營活動,應當遵守本法的各項規定。經營者不得利用技術手段,通過影響用戶選擇或者其他方式,實施下列妨礙、破壞其他經營者合法提供的網路產品或者服務正常運行的行為:(一)未經其他經營者同意,在其合法提供的網路產品或者服務中,插入鏈接、強制進行目標跳轉;(二)誤導、欺騙、強迫用戶修改、關閉、卸載其他經營者合法提供的網路產品或者服務;(三)惡意對其他經營者合法提供的網路產品或者服務實施不兼容;(四)其他妨礙、破壞其他經營者合法提供的網路產品或者服務正常運行的行為。
典型案例:深圳市騰訊計算機系統有限公司、騰訊 科技 (深圳)有限公司與被告某新媒體公司不正當競爭糾紛案
本案中,兩原告系微信公眾平台的經營者和管理者,被告某新媒體公司系某網站經營者,利用爬蟲技術抓取微信公眾平台文章等信息內容數據,並通過網站對外提供公眾號信息搜索、導航及排行等數據服務。原告訴稱,被告利用被控侵權產品,突破微信公眾平台的技術措施進行數據抓取,並進行商業化利用,妨礙平台正常運行,構成不正當競爭。被告辯稱,爬取並提供公眾號數據服務的行為不構成不正當競爭,其爬取的文章並非騰訊公司的數據,而是微信公眾號的用戶數據,且其網站獲利較少。
法院認為,被告違背誠實信用原則,擅自使用原告徵得用戶同意、依法匯集且具有商業價值的數據,並足以實質性替代其他經營者提供的部分產品或服務,損害公平競爭的市場秩序,屬於《反不正當競爭法》第十二條第二款第四項所規定的妨礙、破壞其他經營者合法提供的網路產品或者服務正常運行的行為,構成不正當競爭。
(3) 行政責任
我國當前關於爬蟲行為所應承擔的行政責任主要規定在《網路安全法》中,其中涉嫌違反第27條規定的:「任何個人和組織不得從事非法侵入他人網路、干擾他人網路正常功能、竊取網路數據等危害網路安全的活動;不得提供專門用於從事侵入網路、干擾網路正常功能及防護措施、竊取網路數據等危害網路安全活動的程序、工具;明知他人從事危害網路安全的活動的,不得為其提供技術支持、廣告推廣、支付結算等幫助。」,需要承擔一定的行政責任。該法第63條對違反第27條還規定了具體的行政處罰措施,包括「沒收違法所得」「拘留」「罰款」等處罰。同時,對違反27條規定受到處罰的相關人員也作出了任職限制規定。
此外,《數據安全管理辦法(徵求意見稿)》第16條對爬蟲適用作出了限流規定:「網路運營者採取自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。」同時,第37條也規定了相應的行政責任:網路運營者違反相關規定的,由有關部門給予公開曝光、沒收違法所得、暫停相關業務、停業整頓、關閉網站、吊銷相關業務許可證或吊銷營業執照等處罰。
三、數據爬取行為的合規指引
(一)嚴格規范數據爬取行為
1、如果目標網站有反爬取協議,應嚴格遵守網站設置的 Robots協議。Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是「網路爬蟲排除標准」,網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。該協議尊重信息提供者的意願,並維護其隱私權;保護其使用者的個人信息和隱私不被侵犯。Robots協議代表一種契約精神,互聯網企業只有遵守這一規則,才能保證網站及用戶的隱私數據不被侵犯。可以說,無論從保護網民隱私還是尊重版權內容的角度,遵守robots協議都應該是正規互聯網公司的默之舉,任何違反robots協議的行為都應該為此付出代價。
2、合理限制抓取的內容。在設置抓取策略時,應注意編碼禁止抓取視頻、音樂等可能構成作品的、明確的著作權作品數據,或者針對某些特定網站批量抓取其中的用戶生成內容;在使用、傳播抓取到的信息時,應審查所抓取的內容,如發現屬於用戶的個人信息、隱私或者他人的商業秘密的,應及時停止並刪除。對於內部系統數據,嚴格禁止侵入。
3、爬取行為不應妨礙網站的正常運行。企業應當合理控制爬取的頻率,盡可能避免過於頻繁地抓取數據,特別是如果超過了《數據安全管理辦法(徵求意見稿)》明確規定的「自動化訪問收集流量超過網站日均流量三分之一」的要求,就應當嚴格遵守網站的要求,及時停止數據抓取。
(二)爬取個人信息時恪守合法、正當、必要原則
在我國,合法、正當、必要原則散見於《消費者權益保護法》、《網路安全法》、《全國人大常委會關於加強網路信息保護的決定》、《個人信息安全規范》等法律與規范之中。網路經營者擬爬取用戶個人信息的,應當嚴格遵守上述法律法規的規定,以取得個人用戶的事前同意為原則,避免超出用戶的授權范圍爬取信息。同樣地,數據接受方也應當對以爬蟲方式獲取的他人信息進行合法性審查,了解個人信息主體是否同意共享個人信息數據。
(三)爬取商業數據時謹防構成不正當競爭
在數字內容領域,數據是內容產業的核心競爭資源,內容平台經過匯總分析處理後的數據往往具有極高的經濟價值,因此非法爬取行為在某些具體應用場景下會被認定為構成不正當競爭。尤其是對於雙方商業模式相同或近似、獲取對方的信息會對對方造成直接損害的,企業應重點予以防範。如果存在此種情形,則應當謹慎使用爬取獲取被爬取網站的數據。
四、結語
隨著大數據時代的來臨以及數字技術的蓬勃發展,數據的價值日益凸顯,部分企業通過數據爬取技術更加高效地獲取和深度地利用相關數據,從而彌補企業自身數據不足的現狀,支撐企業的商業化發展。對於這些企業而言,「網路爬蟲如何爬取信息數據才是合法的?」「爬取數據時如何做到合規?」是亟待解決的一大難題。作為法律工作者,應當從法律的專業角度給企業提供強有力的合規指引,為促進高新技術企業的發展,進而全面提升國家 科技 創新能力做出應有的貢獻。