导航:首页 > 网站知识 > 网站如何获取自己信息的

网站如何获取自己信息的

发布时间:2022-07-21 20:33:36

㈠ 如何利用Python爬虫从网页上批量获取想要的信息

稍微说一下背景,当时我想研究蛋白质与小分子的复合物在空间三维结构上的一些规律,首先得有数据啊,数据从哪里来?就是从一个涵盖所有已经解析三维结构的蛋白质-小分子复合物的数据库里面下载。这时候,手动一个个去下显然是不可取的,我们需要写个脚本,能从特定的网站选择性得批量下载需要的信息。python是不错的选择。

import urllib #python中用于获取网站的模块
import urllib2, cookielib

有些网站访问时需要cookie的,python处理cookie代码如下:
cj = cookielib.CookieJar ( )
opener = urllib2.build_opener( urllib2.HttpCookieProcessor(cj) )
urllib2.install_opener (opener)

通常我们需要在网站中搜索得到我们需要的信息,这里分为二种情况:

1. 第一种,直接改变网址就可以得到你想要搜索的页面:

def GetWebPage( x ): #我们定义一个获取页面的函数,x 是用于呈递你在页面中搜索的内容的参数
url = 'http://xxxxx/xxx.cgi?&' + ‘你想要搜索的参数’ # 结合自己页面情况适当修改
page = urllib2.urlopen(url)
pageContent = page.read( )
return pageContent #返回的是HTML格式的页面信息

2.第二种,你需要用到post方法,将你搜索的内容放在postdata里面,然后返回你需要的页面

def GetWebPage( x ): #我们定义一个获取页面的函数,x 是用于呈递你在页面中搜索的内容的参数
url = 'http://xxxxx/xxx' #这个网址是你进入搜索界面的网址
postData = urllib.urlencode( { 各种‘post’参数输入 } ) #这里面的post参数输入需要自己去查
req= urllib2.Request (url, postData)
pageContent = urllib2.urlopen (req). read( )
return pageContent #返回的是HTML格式的页面信息

在获取了我们需要的网页信息之后,我们需要从获得的网页中进一步获取我们需要的信息,这里我推荐使用 BeautifulSoup 这个模块, python自带的没有,可以自行网络谷歌下载安装。 BeautifulSoup 翻译就是‘美味的汤’,你需要做的是从一锅汤里面找到你喜欢吃的东西。

import re # 正则表达式,用于匹配字符
from bs4 import BeautifulSoup # 导入BeautifulSoup 模块

soup = BeautifulSoup(pageContent) #pageContent就是上面我们搜索得到的页面

soup就是 HTML 中所有的标签(tag)BeautifulSoup处理格式化后的字符串,一个标准的tag形式为:

hwkobe24

通过一些过滤方法,我们可以从soup中获取我们需要的信息:

(1) find_all ( name , attrs , recursive , text , **kwargs)
这里面,我们通过添加对标签的约束来获取需要的标签列表, 比如 soup.find_all ('p') 就是寻找名字为‘p’的 标签,而soup.find_all (class = "tittle") 就是找到所有class属性为"tittle" 的标签,以及soup.find_all ( class = re.compile('lass')) 表示 class属性中包含‘lass’的所有标签,这里用到了正则表达式(可以自己学习一下,非常有用滴)

当我们获取了所有想要标签的列表之后,遍历这个列表,再获取标签中你需要的内容,通常我们需要标签中的文字部分,也就是网页中显示出来的文字,代码如下:

tagList = soup.find_all (class="tittle") #如果标签比较复杂,可以用多个过滤条件使过滤更加严格

for tag in tagList:
print tag.text
f.write ( str(tag.text) ) #将这些信息写入本地文件中以后使用

(2)find( name , attrs , recursive , text , **kwargs )

它与 find_all( ) 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

(3)find_parents( ) find_parent( )

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

(4)find_next_siblings() find_next_sibling()

这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

(5)find_previous_siblings() find_previous_sibling()

这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点

(6)find_all_next() find_next()

这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

(7)find_all_previous() 和 find_previous()

这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

具体的使用方法还有很多,用到这里你应该可以解决大部分问题了,如果要更深入了解可以参考官方的使用说明哈!

㈡ 网络信息资源获取的途径有哪些可以通过何种途径将自己的信息发布到网上

网络上有很多可以利用的免费网络信息发布资源。在网络上,行业内的网站外,还可以利用风靡全球的‘搜索引擎’发布信息。提供搜索服务的网站在向用户免费提供搜索服务的同时,向商家收取广告费用。商家通过缴纳广告费,使自己的企业得到更高的曝光度。现在,国内大家比较熟悉的有‘网络’、‘谷歌’、‘搜搜’这一类网络资源的利用,需要公司资金的不间断支持,接下来,我们说说其他不是很相关的网络资源的利用。也就是广告行业里比较流行的‘软文广告’。这类信息多以侧面宣传为思路,而且宣传的效果更为深入,使企业形象得到很好的放大。提供这类平台的网络有钢铁行业网站的论坛,地方信息港的论坛,搜索引擎网的贴吧,等等。这类宣传手段要求信息主管有较好的文字功底,大家可以多加联系。
网络宣传的渠道和手段还有很多,比如:QQ群、HI群,聊天工具,手机短信群发软件,公司网站的建设,等等。橙子

㈢ 我登陆一个网页,这个网页能获取到我这个电脑的什么信息有大神详细点的一一说出来吗

ip地址,上网速度,浏览器软件型号,电脑系统版本,有一定概率能知道你的实际上网地域,精确到小区。这些是肯定可以知道的,如果网页带有插件,还可以知道更多,比如浏览历史。

㈣ 网站是怎么获取我的手机号码的

一般手机访问会有这种情况。有的软件或者浏览器要求读取你的SIM卡信息,如果你同意当然就能知道你的手机号码了。

手机号码资源(Handset number resources)是一种人脉资源。根据国际标准,手机号码以其前三位为本网络的代号,根据协议各个国家都分到了一部分手机网络号码资源。

手机号码[Handset number resources]:是一种资源。根据国际标准,手机号码以其前三位为本网络的代号,根据协议各个国家都分到了一部分手机网络号码资源。

中国以前分到的是从130到139共十个手机网络的号码资源,共十亿个号码资源,供中国自己分配。现在由于手机用户的不断增长,手机号码资源增加了,分别是150到159,170,180到189等。其它如129、144等手机网都是别的国家的。

我国使用的号码为11位,其中各段有不同的编码方向:第1-3位—网络识别号;第4-7位—地区编码;第8-11位—用户号码。号码也就是所谓的MDN号码,即本网移动用户作被叫时,主叫用户所需拨的号码,它采取E.164编码方式;存储在HLR和VLR中,在MAP接口上传送。

自1999年7月22日零时起,我国数字移动电话号码全面升至11位。这一升位至少要拿几项第一,我国第一次全国性电话号码升位、中国移动电话第一次升位、世界规模最大的一次号码升位、我国将是国际电联成立以来第一个拥有11位号码的国家。

㈤ 登录一个功能非常齐全的网站。请问他能获取我的哪些信息

能获取到你的外网IP。

㈥ 如何通过网络窃取你的个人信息

针对一般个人受害者,网络犯罪者多半利用藏有恶意连结的垃圾邮件引诱受害者点选连结,进而下载数据盗窃恶意程序到用户自己的计算机,使用者也可能因为浏览遭到入侵的正常网站而感染数据窃盗恶意程序。这样的技巧统称为强制下载或路过式下载(drive-by-download),发生时使用者通常不会察觉,使用者一旦浏览感染网站,就会自动感染木马程序。 木马程序也经常伪装成屏幕保护程序、游戏程序或玩笑程序来散播攻击。木马程序一旦与远程的恶意服务器联机,就会透过各种技巧来窃取信息。某些木马程序会将受害计算机收编到一个Bot傀儡网络以进行远程遥控。某些则会安装键盘记录程序或屏幕画面截取程序,等候显示账号信息和密码的画面出现就立刻截取。 就像这样,木马程序会在背后偷偷窃取硬盘上存储的个人信息。不管是身份证号、信用卡卡号、银行账号、系统管理密码或是在线游戏密码,皆无法逃过一劫。 一旦您的网络门户洞开,歹徒窃取信息的方法就有无限变化。有些恶意程序会偷取特定信息,有些则是大规模攻击的前锋,歹徒拿到受害者的个人数据之后可能会拿来直接运用,也可能拿到黑市贩卖。

㈦ 如何用 c#登录网站 并获取用户信息

你登录验证通过了吗?通过验证后,可以把用户信息保存到session或者数据库或者cookie
这由你自己确定,通常会保存用户的ID保存到session的方式如下
Session["UserID"]
=
"123";

㈧ 请问网站是如何获取用户信息的能否以代码加以解释说明,谢谢。

一般用会话(session)来判断是否登录,以及登录用户名等信息。
//登录页面
?php
session_start();
if($_post['user']==$user && $_post['pwd']=$pwd){
    //如果登录成功,生成对应的会话值。
    $_session['logined']=1;   //判断是否已经登录的依据。
    $_session['user']=$user;  //记录当前登录用户。
}else{
    echo "登录失败,不记录session值";
}
?

//另一个页面
?php
session_start();
//检测是否登录
if(isset($_session['logined']) && $_session['logined']){
   //$_session['logined']有设置,并且值为真,表示已经登录
   echo "当前登录用户是: ".$_session['user'];
}
?
session是代表会话值,他的生存时间是浏览器打开的周期,就是说浏览器一旦关闭,会话值就会消失。并且会话值有个个特点就是,在会话值生命周期内,同一个域名的页面能够访问该域名产生的会话值,例如,网络知道页面产生的会话值,那么在新打开的网络页面也能访问。

㈨ 浏览网页后接到了相关行业的推销电话,他们是如何获取我们浏览信息的呢

在浏览网页后就容易接到相关行业的推销电话,推销人员在获取到消费者的浏览信息时,往往都是通过浏览页后台可以进行搜索。同时也有很多人在浏览网页的时候,一般都会留下个人的信息或者是电话,尤其是在面临着装修房子的时候,会发现各种各样的推销电话层出不穷。作为一个成年人要知道自己所浏览的网页里面,在浏览的过程中可能都需要先填写个人的手机号码以及身份信息。

在装修房屋的时候会接到各种各样的来电

在生活中对于很多年轻人在有过装修房子的经验时,也都能够切身实际的体会到再去到一些线下门店里面,推销人员第一时间就会要求消费者先留下个人的名字和联系方式。以便日后方便联系,可以精准的跟踪客户,销售人员只能通过留下联络方式,再一次联系客户,才能够促使单子的成交。

㈩ 我访问一个网站,它能获取我什么信息

一般是没有办法让他们不获得到你的信息的,有一些网站,几乎可以说,你的电脑里面正在打开的东西都能够获得,所以,你在浏览某一些网站的时候,最好不要打开你的支付宝或者你的QQ之类的,要不然,他们都是可以获得的,不过,只是获得帐号,现在大部分软件还是无法获得你的密码之类的,希望可以帮到你。也望采纳。

阅读全文

与网站如何获取自己信息的相关的资料

热点内容
网络共享中心没有网卡 浏览:539
电脑无法检测到网络代理 浏览:1394
笔记本电脑一天会用多少流量 浏览:658
苹果电脑整机转移新机 浏览:1393
突然无法连接工作网络 浏览:1134
联通网络怎么设置才好 浏览:1248
小区网络电脑怎么连接路由器 浏览:1110
p1108打印机网络共享 浏览:1229
怎么调节台式电脑护眼 浏览:770
深圳天虹苹果电脑 浏览:1003
网络总是异常断开 浏览:633
中级配置台式电脑 浏览:1068
中国网络安全的战士 浏览:653
同志网站在哪里 浏览:1441
版观看完整完结免费手机在线 浏览:1476
怎样切换默认数据网络设置 浏览:1127
肯德基无线网无法访问网络 浏览:1309
光纤猫怎么连接不上网络 浏览:1549
神武3手游网络连接 浏览:984
局网打印机网络共享 浏览:1018