午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術(shù)文章
文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽:222日期:2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類,使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過filyer()之后變成'無值'

問題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁面放到隊(duì)列里,按類別分類,例如分頁的列表頁一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù),爬取的過程中對一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對大部分爬蟲框架也大概都是這種思路吧,無非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 欧美精品久久久久久久久久 | 91免费处女 | 欧美专区在线视频 | 亚洲自啪 | 欧美激情精品久久 | 91av在线免费 | 爱爱网入口| 免费黄色在线视频 | 4438x五月天 黄色在线观看免费视频 | av影音先锋| 免费视频国产 | 色啪影院| 亚洲一区二区三区中文字幕 | 国产精品久久影院 | 99热国产 | 欧美精品福利视频 | 九九精品在线播放 | 亚洲精品免费网站 | 337p亚洲精品色噜噜狠狠 | 国产精品伊人 | 国产午夜精品一区二区 | www黄色在线观看 | 日韩欧美一本 | 国产一区二区三区自拍 | 专业操老外 | 日韩美女免费视频 | 午夜激情网址 | 国产欧美日韩在线视频 | 骚鸭av| 亚洲女优在线观看 | 日韩一区二区在线看 | 婷婷色中文网 | 国产成人精品在线视频 | 日日精 | 日本黄色短视频 | 中文有码在线播放 | 中文字幕在线观看视频网站 | 国产精品高清在线 | 亚洲视频在线观看 | 成人黄色免费网 | 粉色午夜视频 |