文章詳情頁

Python爬蟲JSON及JSONPath運行原理詳解

瀏覽：23日期：2022-07-22 18:46:12

JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用于進行數據交互的場景，比如網站前臺與后臺之間的數據交互。

JsonPath 是一種信息抽取類庫，是從JSON文檔中抽取指定信息的工具，提供多種語言實現版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對于 JSON 來說，相當于 XPATH 對于 XML。

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，復雜度低，非常容易匹配，下表中對應了XPath的用法。

Python爬蟲JSON及JSONPath運行原理詳解

相關推薦：《Python相關教程》

利用JSONPath爬取拉勾網上所有的城市

#!/usr/bin/env python# -*- coding:utf-8 -*-import urllib2# json解析庫，對應到lxmlimport json# json的解析語法，對應到xpathimport jsonpathurl = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’}request = urllib2.Request(url, headers = headers)response = urllib2.urlopen(request)# 取出json文件里的內容，返回的格式是字符串html = response.read()# 把json形式的字符串轉換成python形式的Unicode字符串unicodestr = json.loads(html)# Python形式的列表city_list = jsonpath.jsonpath(unicodestr, '$..name')#for item in city_list:# print item# dumps()默認中文為ascii編碼格式，ensure_ascii默認為Ture# 禁用ascii編碼格式，返回的Unicode字符串，方便使用array = json.dumps(city_list, ensure_ascii=False)#json.dumps(city_list)#array = json.dumps(city_list)with open('lagoucity.json', 'w') as f: f.write(array.encode('utf-8'))

結果：

Python爬蟲JSON及JSONPath運行原理詳解

糗事百科爬取

利用XPATH的模糊查詢

獲取每個帖子里的內容

保存到 json 文件內

#!/usr/bin/env python# -*- coding:utf-8 -*-import urllib2import jsonfrom lxml import etreeurl = 'http://www.qiushibaike.com/8hr/page/2/'headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’}request = urllib2.Request(url, headers = headers)html = urllib2.urlopen(request).read()# 響應返回的是字符串，解析為HTML DOM模式 text = etree.HTML(html)text = etree.HTML(html)# 返回所有段子的結點位置，contains()模糊查詢方法，第一個參數是要匹配的標簽，第二個參數是標簽名部分內容node_list = text.xpath(’//div[contains(@id, 'qiushi_tag')]’)items ={}for node in node_list: # xpath返回的列表，這個列表就這一個參數，用索引方式取出來，用戶名 username = node.xpath(’./div/a/@title’)[0] # 取出標簽下的內容,段子內容 content = node.xpath(’.//div[@class='content']/span’)[0].text # 取出標簽里包含的內容，點贊 zan = node.xpath(’.//i’)[0].text # 評論 comments = node.xpath(’.//i’)[1].text items = { 'username' : username, 'content' : content, 'zan' : zan, 'comments' : comments } with open('qiushi.json', 'a') as f: f.write(json.dumps(items, ensure_ascii=False).encode('utf-8') + '')

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：解決python圖像處理圖像賦值后變為白色的問題下一條：python 實現圖像快速替換某種顏色

相關文章：

1. IntelliJ IDEA安裝插件的方法步驟2. php模擬實現斗地主發牌3. 理解PHP5中static和const關鍵字4. MyBatis中的JdbcType映射使用詳解5. vue 使用localstorage實現面包屑的操作6. Vuex localStorage的具體使用7. Python random庫使用方法及異常處理方案8. spring acegi security 1.0.0 發布9. .Net Core使用Coravel實現任務調度的完整步驟10. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現

排行榜

					
					php模擬實現斗地主發牌
理解PHP5中static和const關鍵字
IntelliJ IDEA安裝插件的方法步驟
Docker 容器健康檢查機制
Python random庫使用方法及異常處理方案
Android table布局開發實現簡單計算器
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
jQuery 實現DOM元素拖拽交換位置的實例代碼
Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現
MyBatis中的JdbcType映射使用詳解