Ⅰ 小白刚学习python爬取,运行解析没有问题,但解析.xpath运行出来没有数据
内部网站不能访问,你用无登录打开这个网站会自动跳转,所以就没内容了。
爬中国人民银行想干嘛?拿电影、小说网站爬爬不好吗?
Ⅱ python3爬取网页,报错AttributeError: 'NoneType' object has no attribute 'xpath'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
data = requests.get(url,headers=headers).text
加一个头部就行了
Ⅲ Python使用xpath爬取数据返回空列表,求解答
你输出html看看,根本不是网页。
这网站好像有反爬限制。你用基于浏览器的爬虫试试。例如 chrome 的 Web Scraper。
Ⅳ python3.7爬虫使用xpath解析,获取的表格数据为什么不全面
我认为是xpath默认提取xpath第一个tr属性了,xpath 表达式改成'//div[@class="row"]//table//tr[@height="38px" or @height=""]'
Ⅳ python3 请求网页时得到空的json里面的data数据为空,加了headers,为啥还会这样,求大佬指点
首先,能否说下你要爬取的网址。
其次,如果不方便,根据你的描述,该网站是不是有反扒机制,比如验证码等,虽然你在爬取时加入了headers。
最后,还有一个就是你通过抓包看下,json里面是否有数据,
建议
程序的定位点,要注意一下,建议使用lxml的xpath
希望能帮到你。。。。。。
Ⅵ 用python的xpath定位textarea爬取不下来是什么原因,一直是空,比如当当网图书的目录标签就是textarea
你用你爬虫抓一个页面保存下面,然后用字符串的正则表达式进去匹配了看看。
感觉他们是先加载页面,后用ajax后刷新部分数据的,你抓取到的时候那些数据还没出来。
Ⅶ 如何用xpath直接爬取网页
1. 利用Selenium IDE
我们可以通过firefox添加插件Selenium IDE并开启。当点击红色的录制按钮后,我们对网页进行操作后,该工具会录制所有的行为并转化为selenium命令,当然也就包含有了locator。
方法优点:简单、方便
方法不足:对于一些复杂点的行为可能会漏掉,因此也就无法捕获相应的locator;此外locator是自动获取的,可能不是很直观,另外无法得到统一样式的locator。
2. 利用Firebug
同样firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打开Firebug,于是能够看到页面的下半部分有显示Firebug窗口,可以查看HTML,CSS等。因为了解的粗浅,所以只能说说知道的几点简单功能。
如果我们需要查看页面某个元素的locator,可以鼠标右击,选择Inspect Element with Firebug, 于是就到了元素对应的html源码位置。这样我们根据这部分源码来写locator。
但是,往往对于一些element如button等,右击后没有反应时,我们可以考虑选择它们旁边的元素进行,到源码后再通过查找其兄弟元素源码或者上一层来找到相应源码。这里主要根据是当我们鼠标放在以某tag为根节点的源码的上时,上面的页面对应的界面元素会有相应标记。
方法缺点:写出的locator可能并不是页面的唯一,这样selenium运行就难以识别
Ⅷ 问题:用scrapy爬取下一页链接时返回空值
在这里回答爬虫相关问题代码,答一个被删一个
Ⅸ Scrapy 爬取页面时 xpath 取到数据不正确,是不是缓存的关系
数据不正确的具体表现是错位的话,是xpath路径的问题,题主可以在浏览器里面用xpath定位一下,检查一下自己的xpath路径。希望可以帮到题主
Ⅹ python,find_elements_by_xpath获取不到是怎么回事
可能css属性是隐藏。selenium规定只能和可见属性的标签交互。如果你定位的是隐藏的,只会返回空值。解决方法是设置成可见再获取。简单粗暴的方法是直接给它的属性值删除后,再定位。当然,这个只适合某一个网站,如果你想把你写的东西用在任何网站,那就不能这样了。我的问题就不能这样解决!头痛。貌似只能换个测试模块。。