文章詳情頁

python - 我寫的Xpath 為什么爬取不到內(nèi)容

瀏覽：111日期：2022-08-13 13:30:26

問題描述

-- coding:utf-8 --

import lxml,requests,sysfrom bs4 import BeautifulSoupfrom lxml import etree

reload(sys)sys.setdefaultencoding('utf-8')

def main():

url = ’https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E6%9A%B4%E8%B5%B0%E6%BC%AB%E7%94%BB&pn=0’req = requests.get(url).content

# soup = BeautifulSoup(req.content,’lxml’) # imgs = soup.find_all(’img’)

content = etree.HTML(req)paths = content.xpath(’//*[@id='imgid']/ul/li[1]/a/img/text()’)# for img in imgs:## print img

# for img in imgs :

print paths

main()

問題解答

回答1：

在寫爬蟲的時候，使用xpath一定要確認一下網(wǎng)頁的源代碼中是否有數(shù)據(jù)，如果沒有，說明是異步加載的

1. 瀏覽器輸入這個連接即可看源代碼，ctrl+f 查找imgid所在的位置

view-source:https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E6%9A%B4%E8%B5%B0%E6%BC%AB%E7%94%BB&pn=02. 發(fā)現(xiàn)

并沒有找到下面的圖片列表，我們可以判定圖片是js加載的

3. 尋找

F12看network(刷新才能看到)，并沒有發(fā)現(xiàn)異步請求加載的圖片信息，于是我猜測數(shù)據(jù)應(yīng)該就在html里，不過是放在js里，在加載圖片的時候處理了

同樣是上面的查看源代碼的方式，查找objURL這個參數(shù)發(fā)現(xiàn)了真實的url

//很多，集中在html下半部分http://img3.duitang.com/uploads/item/201608/06/20160806110540_MAcru.jpeg解決

剩下的就交給你啦～去想辦法解析出下面部分的真實url吧!

Python 編程

上一條：python - 如何爬取登錄后的socket連接下一條：如何使用python提取json中指定字段的數(shù)據(jù)?

相關(guān)文章：

1. 運行python程序時出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯誤？2. spring-mvc - spring-session-redis HttpSessionListener失效3. 在mac下出現(xiàn)了兩個docker環(huán)境4. 利用IPMI遠程安裝centos報錯！5. 測試自動化html元素選擇器元素ID或DataAttribute [關(guān)閉]6. javascript - 在 model里定義的引用表模型時，model為undefined。7. javascript - node得到req不能得到boolean8. python 正則表達式提取9. java - Spring boot 讀取放在 jar 包外的，log4j 配置文件，系統(tǒng)有創(chuàng)建日志文件，不寫入日志信息。10. javascript - 最近用echarts做統(tǒng)計圖時遇到兩個問題！！

排行榜

					
					spring-mvc - spring-session-redis HttpSessionListener失效
運行python程序時出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯誤？
測試自動化html元素選擇器元素ID或DataAttribute [關(guān)閉]
利用IPMI遠程安裝centos報錯！
在mac下出現(xiàn)了兩個docker環(huán)境
IOS app應(yīng)用軟件的id號怎么查詢？比如百度貼吧的app-id=477927813
淺談Vue使用Cascader級聯(lián)選擇器數(shù)據(jù)回顯中的坑
python 正則表達式提取
java - Spring boot 讀取 放在 jar 包外的，log4j 配置文件，系統(tǒng)有創(chuàng)建日志文件，不寫入日志信息。
正在使用electron和node.js做桌面應(yīng)用，需要實時監(jiān)聽是否有網(wǎng)絡(luò)連接，node或者electron是否可以做到
node.js - 剛裝上最新node，npm install報這個錯誤！求ndoe大神解答！！！
				

熱門標(biāo)簽

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

python - 我寫的Xpath 為什么爬取不到內(nèi)容