文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽：222日期：2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí)，利用itemloader這個(gè)類，使用selector取出的值為空時(shí)，進(jìn)入scrapy.Field()里調(diào)用filter()，selector取值不為空的確返回'有值'，如果selector取出[]或'',那么value進(jìn)入filter()之后，并不會返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了，熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值，經(jīng)過filyer()之后變成'無值'

問題解答

回答1：

謝邀~不太了解Scrapy，所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是：1.先是根據(jù)正則和一些循環(huán)，把要收集的頁面放到隊(duì)列里，按類別分類，例如分頁的列表頁一個(gè)隊(duì)列，列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù)，爬取的過程中對一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù)，按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣，我絕對大部分爬蟲框架也大概都是這種思路吧，無非是在此基礎(chǔ)上增加了，反爬機(jī)制，多線程，多進(jìn)程，增量爬取等等功能。所以，題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

Python 編程

上一條：python - 面對一串含有亂碼的字符串，如何取下需要的信息下一條：python - 編碼問題求助

相關(guān)文章：

1. html5和Flash對抗是什么情況？2. html5 - datatables 加載不出來數(shù)據(jù)。3. docker 下面創(chuàng)建的IMAGE 他們的 ID 一樣？這個(gè)是怎么回事？？？？4. 利用IPMI遠(yuǎn)程安裝centos報(bào)錯(cuò)！5. node.js - mongodb查找子對象的名稱為某個(gè)值的對象的方法6. 運(yùn)行python程序時(shí)出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯(cuò)誤？7. 測試自動化html元素選擇器元素ID或DataAttribute [關(guān)閉]8. javascript - QQ第三方登錄的問題9. javascript - 在 model里定義的引用表模型時(shí)，model為undefined。10. spring-mvc - spring-session-redis HttpSessionListener失效

排行榜

					
					html5 - datatables 加載不出來數(shù)據(jù)。
運(yùn)行python程序時(shí)出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯(cuò)誤？
javascript - QQ第三方登錄的問題
node.js - mongodb查找子對象的名稱為某個(gè)值的對象的方法
測試自動化html元素選擇器元素ID或DataAttribute [關(guān)閉]
利用IPMI遠(yuǎn)程安裝centos報(bào)錯(cuò)！
html5和Flash對抗是什么情況？
docker  下面創(chuàng)建的IMAGE 他們的 ID 一樣？這個(gè)是怎么回事？？？？
java - Spring boot 讀取 放在 jar 包外的，log4j 配置文件，系統(tǒng)有創(chuàng)建日志文件，不寫入日志信息。
spring-mvc - spring-session-redis HttpSessionListener失效
javascript - 在 model里定義的 引用表模型時(shí)，model為undefined。
				

熱門標(biāo)簽

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問