文章詳情頁

python使用XPath解析數據爬取起點小說網數據

瀏覽：30日期：2022-06-21 15:45:48

1. xpath 的介紹

xpath是一門在XML文檔中查找信息的語言

優點：可以在xml中找信息支持HTML的查找可以通過元素和屬性進行導航

但是Xpath需要依賴xml的庫，所以我們需要去安裝lxml的庫。

安裝lxml庫

我們先要安裝lxml的庫，直接在pycharm里安裝即可：

python使用XPath解析數據爬取起點小說網數據

XML的樹形結構：

python使用XPath解析數據爬取起點小說網數據

元素-元素-屬性-文本

使用XPath選取節點：

nodename: 選取此節點的所有節點 /從根節點選擇 // 從匹配選擇的當前節點選擇文檔中的節點，而不考慮他們的位置 . 選擇當前節點 .. 選擇當前節點的父節點（此處是兩個點，瀏覽器默認顯示3個..） /text() 獲取當前路徑下的文本內容 /@xxx 提取當前路徑下標簽的屬性值選取節點的表達式舉例：

python使用XPath解析數據爬取起點小說網數據

2. 爬取起點小說網在瀏覽器中獲取書名和作者測試

在谷歌里安裝一個xpath的插件

python使用XPath解析數據爬取起點小說網數據

在html中查找book-mid-info

python使用XPath解析數據爬取起點小說網數據

我們要獲取小說的名稱：也就是 //div[@class=’book-mid-info’]/h4/a/txt()

python使用XPath解析數據爬取起點小說網數據

再加一個獲取作者：

python使用XPath解析數據爬取起點小說網數據

使用xpath獲取起點小說網的數據

# 作者：互聯網老辛# 開發時間：2021/4/8/0008 8:24import requestsfrom lxml import etreeurl='https://www.qidian.com/rank/yuepiao'headers={’user-agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’}#發送請求resp=requests.get(url,headers)e=etree.HTML(resp.text) #類型轉換，把str轉變為class ’lxml.etree._ELementprint(type(e))names=e.xpath(’//div[@class='book-mid-info']/h4/a/text()’)authors=e.xpath(’//p[@class='author']/a[1]/text()’)print(names)print(authors)#名稱和作者對應for name,authors in zip(names,authors): print(name,':',authors)

以上就是python使用XPath解析數據爬取起點小說網數據的詳細內容，更多關于python XPath解析數據爬取起點小說網的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 破解加密zip文件的密碼下一條：python 實現德洛內三角剖分的操作

相關文章：

1. PHP基礎之生成器4——比較生成器和迭代器對象2. ASP新手必備的基礎知識3. 詳解PHP laravel中的加密與解密函數4. CentOS郵箱服務器搭建系列——SMTP服務器的構建（ Postfix ）5. Docker 啟動Redis 并設置密碼的操作6. asp文件用什么軟件編輯7. vue限制輸入數字或者保留兩位小數實現8. python如何操作mysql9. 用PyCharm輕松安裝Python插件10. 利用CSS制作3D動畫

排行榜

					
					ASP新手必備的基礎知識
詳解PHP laravel中的加密與解密函數
asp文件用什么軟件編輯
CentOS郵箱服務器搭建系列——SMTP服務器的構建（ Postfix ）
PHP基礎之生成器4——比較生成器和迭代器對象
Docker 啟動Redis 并設置密碼的操作
JS中6個對象數組去重的方法
vue+element開發一個谷歌插件的全過程
JAVA 實現延遲隊列的方法
vue限制輸入數字或者保留兩位小數實現
python 爬取豆瓣網頁的示例