Ⅰ 小白剛學習python爬取,運行解析沒有問題,但解析.xpath運行出來沒有數據
內部網站不能訪問,你用無登錄打開這個網站會自動跳轉,所以就沒內容了。
爬中國人民銀行想幹嘛?拿電影、小說網站爬爬不好嗎?
Ⅱ python3爬取網頁,報錯AttributeError: 'NoneType' object has no attribute 'xpath'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
data = requests.get(url,headers=headers).text
加一個頭部就行了
Ⅲ Python使用xpath爬取數據返回空列表,求解答
你輸出html看看,根本不是網頁。
這網站好像有反爬限制。你用基於瀏覽器的爬蟲試試。例如 chrome 的 Web Scraper。
Ⅳ python3.7爬蟲使用xpath解析,獲取的表格數據為什麼不全面
我認為是xpath默認提取xpath第一個tr屬性了,xpath 表達式改成'//div[@class="row"]//table//tr[@height="38px" or @height=""]'
Ⅳ python3 請求網頁時得到空的json裡面的data數據為空,加了headers,為啥還會這樣,求大佬指點
首先,能否說下你要爬取的網址。
其次,如果不方便,根據你的描述,該網站是不是有反扒機制,比如驗證碼等,雖然你在爬取時加入了headers。
最後,還有一個就是你通過抓包看下,json裡面是否有數據,
建議
程序的定位點,要注意一下,建議使用lxml的xpath
希望能幫到你。。。。。。
Ⅵ 用python的xpath定位textarea爬取不下來是什麼原因,一直是空,比如當當網圖書的目錄標簽就是textarea
你用你爬蟲抓一個頁面保存下面,然後用字元串的正則表達式進去匹配了看看。
感覺他們是先載入頁面,後用ajax後刷新部分數據的,你抓取到的時候那些數據還沒出來。
Ⅶ 如何用xpath直接爬取網頁
1. 利用Selenium IDE
我們可以通過firefox添加插件Selenium IDE並開啟。當點擊紅色的錄制按鈕後,我們對網頁進行操作後,該工具會錄制所有的行為並轉化為selenium命令,當然也就包含有了locator。
方法優點:簡單、方便
方法不足:對於一些復雜點的行為可能會漏掉,因此也就無法捕獲相應的locator;此外locator是自動獲取的,可能不是很直觀,另外無法得到統一樣式的locator。
2. 利用Firebug
同樣firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打開Firebug,於是能夠看到頁面的下半部分有顯示Firebug窗口,可以查看HTML,CSS等。因為了解的粗淺,所以只能說說知道的幾點簡單功能。
如果我們需要查看頁面某個元素的locator,可以滑鼠右擊,選擇Inspect Element with Firebug, 於是就到了元素對應的html源碼位置。這樣我們根據這部分源碼來寫locator。
但是,往往對於一些element如button等,右擊後沒有反應時,我們可以考慮選擇它們旁邊的元素進行,到源碼後再通過查找其兄弟元素源碼或者上一層來找到相應源碼。這里主要根據是當我們滑鼠放在以某tag為根節點的源碼的上時,上面的頁面對應的界面元素會有相應標記。
方法缺點:寫出的locator可能並不是頁面的唯一,這樣selenium運行就難以識別
Ⅷ 問題:用scrapy爬取下一頁鏈接時返回空值
在這里回答爬蟲相關問題代碼,答一個被刪一個
Ⅸ Scrapy 爬取頁面時 xpath 取到數據不正確,是不是緩存的關系
數據不正確的具體表現是錯位的話,是xpath路徑的問題,題主可以在瀏覽器裡面用xpath定位一下,檢查一下自己的xpath路徑。希望可以幫到題主
Ⅹ python,find_elements_by_xpath獲取不到是怎麼回事
可能css屬性是隱藏。selenium規定只能和可見屬性的標簽交互。如果你定位的是隱藏的,只會返回空值。解決方法是設置成可見再獲取。簡單粗暴的方法是直接給它的屬性值刪除後,再定位。當然,這個只適合某一個網站,如果你想把你寫的東西用在任何網站,那就不能這樣了。我的問題就不能這樣解決!頭痛。貌似只能換個測試模塊。。