導航:首頁 > 網站知識 > 網站如何獲取自己信息的

網站如何獲取自己信息的

發布時間:2022-07-21 20:33:36

㈠ 如何利用Python爬蟲從網頁上批量獲取想要的信息

稍微說一下背景,當時我想研究蛋白質與小分子的復合物在空間三維結構上的一些規律,首先得有數據啊,數據從哪裡來?就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子復合物的資料庫裡面下載。這時候,手動一個個去下顯然是不可取的,我們需要寫個腳本,能從特定的網站選擇性得批量下載需要的信息。python是不錯的選擇。

import urllib #python中用於獲取網站的模塊
import urllib2, cookielib

有些網站訪問時需要cookie的,python處理cookie代碼如下:
cj = cookielib.CookieJar ( )
opener = urllib2.build_opener( urllib2.HttpCookieProcessor(cj) )
urllib2.install_opener (opener)

通常我們需要在網站中搜索得到我們需要的信息,這里分為二種情況:

1. 第一種,直接改變網址就可以得到你想要搜索的頁面:

def GetWebPage( x ): #我們定義一個獲取頁面的函數,x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx.cgi?&' + 『你想要搜索的參數』 # 結合自己頁面情況適當修改
page = urllib2.urlopen(url)
pageContent = page.read( )
return pageContent #返回的是HTML格式的頁面信息

2.第二種,你需要用到post方法,將你搜索的內容放在postdata裡面,然後返回你需要的頁面

def GetWebPage( x ): #我們定義一個獲取頁面的函數,x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx' #這個網址是你進入搜索界面的網址
postData = urllib.urlencode( { 各種『post』參數輸入 } ) #這裡面的post參數輸入需要自己去查
req= urllib2.Request (url, postData)
pageContent = urllib2.urlopen (req). read( )
return pageContent #返回的是HTML格式的頁面信息

在獲取了我們需要的網頁信息之後,我們需要從獲得的網頁中進一步獲取我們需要的信息,這里我推薦使用 BeautifulSoup 這個模塊, python自帶的沒有,可以自行網路谷歌下載安裝。 BeautifulSoup 翻譯就是『美味的湯』,你需要做的是從一鍋湯裡面找到你喜歡吃的東西。

import re # 正則表達式,用於匹配字元
from bs4 import BeautifulSoup # 導入BeautifulSoup 模塊

soup = BeautifulSoup(pageContent) #pageContent就是上面我們搜索得到的頁面

soup就是 HTML 中所有的標簽(tag)BeautifulSoup處理格式化後的字元串,一個標準的tag形式為:

hwkobe24

通過一些過濾方法,我們可以從soup中獲取我們需要的信息:

(1) find_all ( name , attrs , recursive , text , **kwargs)
這裡面,我們通過添加對標簽的約束來獲取需要的標簽列表, 比如 soup.find_all ('p') 就是尋找名字為『p』的 標簽,而soup.find_all (class = "tittle") 就是找到所有class屬性為"tittle" 的標簽,以及soup.find_all ( class = re.compile('lass')) 表示 class屬性中包含『lass』的所有標簽,這里用到了正則表達式(可以自己學習一下,非常有用滴)

當我們獲取了所有想要標簽的列表之後,遍歷這個列表,再獲取標簽中你需要的內容,通常我們需要標簽中的文字部分,也就是網頁中顯示出來的文字,代碼如下:

tagList = soup.find_all (class="tittle") #如果標簽比較復雜,可以用多個過濾條件使過濾更加嚴格

for tag in tagList:
print tag.text
f.write ( str(tag.text) ) #將這些信息寫入本地文件中以後使用

(2)find( name , attrs , recursive , text , **kwargs )

它與 find_all( ) 方法唯一的區別是 find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果

(3)find_parents( ) find_parent( )

find_all() 和 find() 只搜索當前節點的所有子節點,孫子節點等. find_parents() 和 find_parent() 用來搜索當前節點的父輩節點,搜索方法與普通tag的搜索方法相同,搜索文檔搜索文檔包含的內容

(4)find_next_siblings() find_next_sibling()

這2個方法通過 .next_siblings 屬性對當 tag 的所有後面解析的兄弟 tag 節點進代, find_next_siblings() 方法返回所有符合條件的後面的兄弟節點,find_next_sibling() 只返回符合條件的後面的第一個tag節點

(5)find_previous_siblings() find_previous_sibling()

這2個方法通過 .previous_siblings 屬性對當前 tag 的前面解析的兄弟 tag 節點進行迭代, find_previous_siblings()方法返回所有符合條件的前面的兄弟節點, find_previous_sibling() 方法返回第一個符合條件的前面的兄弟節點

(6)find_all_next() find_next()

這2個方法通過 .next_elements 屬性對當前 tag 的之後的 tag 和字元串進行迭代, find_all_next() 方法返回所有符合條件的節點, find_next() 方法返回第一個符合條件的節點

(7)find_all_previous() 和 find_previous()

這2個方法通過 .previous_elements 屬性對當前節點前面的 tag 和字元串進行迭代, find_all_previous() 方法返回所有符合條件的節點, find_previous()方法返回第一個符合條件的節點

具體的使用方法還有很多,用到這里你應該可以解決大部分問題了,如果要更深入了解可以參考官方的使用說明哈!

㈡ 網路信息資源獲取的途徑有哪些可以通過何種途徑將自己的信息發布到網上

網路上有很多可以利用的免費網路信息發布資源。在網路上,行業內的網站外,還可以利用風靡全球的『搜索引擎』發布信息。提供搜索服務的網站在向用戶免費提供搜索服務的同時,向商家收取廣告費用。商家通過繳納廣告費,使自己的企業得到更高的曝光度。現在,國內大家比較熟悉的有『網路』、『谷歌』、『搜搜』這一類網路資源的利用,需要公司資金的不間斷支持,接下來,我們說說其他不是很相關的網路資源的利用。也就是廣告行業里比較流行的『軟文廣告』。這類信息多以側面宣傳為思路,而且宣傳的效果更為深入,使企業形象得到很好的放大。提供這類平台的網路有鋼鐵行業網站的論壇,地方信息港的論壇,搜索引擎網的貼吧,等等。這類宣傳手段要求信息主管有較好的文字功底,大家可以多加聯系。
網路宣傳的渠道和手段還有很多,比如:QQ群、HI群,聊天工具,手機簡訊群發軟體,公司網站的建設,等等。橙子

㈢ 我登陸一個網頁,這個網頁能獲取到我這個電腦的什麼信息有大神詳細點的一一說出來嗎

ip地址,上網速度,瀏覽器軟體型號,電腦系統版本,有一定概率能知道你的實際上網地域,精確到小區。這些是肯定可以知道的,如果網頁帶有插件,還可以知道更多,比如瀏覽歷史。

㈣ 網站是怎麼獲取我的手機號碼的

一般手機訪問會有這種情況。有的軟體或者瀏覽器要求讀取你的SIM卡信息,如果你同意當然就能知道你的手機號碼了。

手機號碼資源(Handset number resources)是一種人脈資源。根據國際標准,手機號碼以其前三位為本網路的代號,根據協議各個國家都分到了一部分手機網路號碼資源。

手機號碼[Handset number resources]:是一種資源。根據國際標准,手機號碼以其前三位為本網路的代號,根據協議各個國家都分到了一部分手機網路號碼資源。

中國以前分到的是從130到139共十個手機網路的號碼資源,共十億個號碼資源,供中國自己分配。現在由於手機用戶的不斷增長,手機號碼資源增加了,分別是150到159,170,180到189等。其它如129、144等手機網都是別的國家的。

我國使用的號碼為11位,其中各段有不同的編碼方向:第1-3位—網路識別號;第4-7位—地區編碼;第8-11位—用戶號碼。號碼也就是所謂的MDN號碼,即本網移動用戶作被叫時,主叫用戶所需撥的號碼,它採取E.164編碼方式;存儲在HLR和VLR中,在MAP介面上傳送。

自1999年7月22日零時起,我國數字行動電話號碼全面升至11位。這一升位至少要拿幾項第一,我國第一次全國性電話號碼升位、中國行動電話第一次升位、世界規模最大的一次號碼升位、我國將是國際電聯成立以來第一個擁有11位號碼的國家。

㈤ 登錄一個功能非常齊全的網站。請問他能獲取我的哪些信息

能獲取到你的外網IP。

㈥ 如何通過網路竊取你的個人信息

針對一般個人受害者,網路犯罪者多半利用藏有惡意連結的垃圾郵件引誘受害者點選連結,進而下載數據盜竊惡意程序到用戶自己的計算機,使用者也可能因為瀏覽遭到入侵的正常網站而感染數據竊盜惡意程序。這樣的技巧統稱為強制下載或路過式下載(drive-by-download),發生時使用者通常不會察覺,使用者一旦瀏覽感染網站,就會自動感染木馬程序。 木馬程序也經常偽裝成屏幕保護程序、游戲程序或玩笑程序來散播攻擊。木馬程序一旦與遠程的惡意伺服器聯機,就會透過各種技巧來竊取信息。某些木馬程序會將受害計算機收編到一個Bot傀儡網路以進行遠程遙控。某些則會安裝鍵盤記錄程序或屏幕畫面截取程序,等候顯示賬號信息和密碼的畫面出現就立刻截取。 就像這樣,木馬程序會在背後偷偷竊取硬碟上存儲的個人信息。不管是身份證號、信用卡卡號、銀行賬號、系統管理密碼或是在線游戲密碼,皆無法逃過一劫。 一旦您的網路門戶洞開,歹徒竊取信息的方法就有無限變化。有些惡意程序會偷取特定信息,有些則是大規模攻擊的前鋒,歹徒拿到受害者的個人數據之後可能會拿來直接運用,也可能拿到黑市販賣。

㈦ 如何用 c#登錄網站 並獲取用戶信息

你登錄驗證通過了嗎?通過驗證後,可以把用戶信息保存到session或者資料庫或者cookie
這由你自己確定,通常會保存用戶的ID保存到session的方式如下
Session["UserID"]
=
"123";

㈧ 請問網站是如何獲取用戶信息的能否以代碼加以解釋說明,謝謝。

一般用會話(session)來判斷是否登錄,以及登錄用戶名等信息。
//登錄頁面
?php
session_start();
if($_post['user']==$user && $_post['pwd']=$pwd){
    //如果登錄成功,生成對應的會話值。
    $_session['logined']=1;   //判斷是否已經登錄的依據。
    $_session['user']=$user;  //記錄當前登錄用戶。
}else{
    echo "登錄失敗,不記錄session值";
}
?

//另一個頁面
?php
session_start();
//檢測是否登錄
if(isset($_session['logined']) && $_session['logined']){
   //$_session['logined']有設置,並且值為真,表示已經登錄
   echo "當前登錄用戶是: ".$_session['user'];
}
?
session是代表會話值,他的生存時間是瀏覽器打開的周期,就是說瀏覽器一旦關閉,會話值就會消失。並且會話值有個個特點就是,在會話值生命周期內,同一個域名的頁面能夠訪問該域名產生的會話值,例如,網路知道頁面產生的會話值,那麼在新打開的網路頁面也能訪問。

㈨ 瀏覽網頁後接到了相關行業的推銷電話,他們是如何獲取我們瀏覽信息的呢

在瀏覽網頁後就容易接到相關行業的推銷電話,推銷人員在獲取到消費者的瀏覽信息時,往往都是通過瀏覽頁後台可以進行搜索。同時也有很多人在瀏覽網頁的時候,一般都會留下個人的信息或者是電話,尤其是在面臨著裝修房子的時候,會發現各種各樣的推銷電話層出不窮。作為一個成年人要知道自己所瀏覽的網頁裡面,在瀏覽的過程中可能都需要先填寫個人的手機號碼以及身份信息。

在裝修房屋的時候會接到各種各樣的來電

在生活中對於很多年輕人在有過裝修房子的經驗時,也都能夠切身實際的體會到再去到一些線下門店裡面,推銷人員第一時間就會要求消費者先留下個人的名字和聯系方式。以便日後方便聯系,可以精準的跟蹤客戶,銷售人員只能通過留下聯絡方式,再一次聯系客戶,才能夠促使單子的成交。

㈩ 我訪問一個網站,它能獲取我什麼信息

一般是沒有辦法讓他們不獲得到你的信息的,有一些網站,幾乎可以說,你的電腦裡面正在打開的東西都能夠獲得,所以,你在瀏覽某一些網站的時候,最好不要打開你的支付寶或者你的QQ之類的,要不然,他們都是可以獲得的,不過,只是獲得帳號,現在大部分軟體還是無法獲得你的密碼之類的,希望可以幫到你。也望採納。

閱讀全文

與網站如何獲取自己信息的相關的資料

熱點內容
網路共享中心沒有網卡 瀏覽:527
電腦無法檢測到網路代理 瀏覽:1377
筆記本電腦一天會用多少流量 瀏覽:597
蘋果電腦整機轉移新機 瀏覽:1381
突然無法連接工作網路 瀏覽:1080
聯通網路怎麼設置才好 瀏覽:1230
小區網路電腦怎麼連接路由器 瀏覽:1057
p1108列印機網路共享 瀏覽:1215
怎麼調節台式電腦護眼 瀏覽:719
深圳天虹蘋果電腦 瀏覽:955
網路總是異常斷開 瀏覽:618
中級配置台式電腦 瀏覽:1015
中國網路安全的戰士 瀏覽:638
同志網站在哪裡 瀏覽:1422
版觀看完整完結免費手機在線 瀏覽:1464
怎樣切換默認數據網路設置 瀏覽:1114
肯德基無線網無法訪問網路 瀏覽:1290
光纖貓怎麼連接不上網路 瀏覽:1499
神武3手游網路連接 瀏覽:969
局網列印機網路共享 瀏覽:1005