午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術文章
文章詳情頁

python - scrapy url去重

瀏覽:223日期:2022-08-24 16:35:16

問題描述

請問scrapy是url自動去重的嗎?比如下面這段代碼,為什么運行時start_urls里面的重復url會重復爬取了?

class TestSpider(scrapy.Spider): name = 'test' allowed_domains = ['baidu.com'] start_urls = [’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’,] def parse(self, response):for sel in response.xpath(’//p[@class='grid-list grid-list-spot']/ul/li’): item = TestspiderItem() item[’title’] = sel.xpath(’p[@class='list']/a/text()’)[0].extract() item[’link’] = sel.xpath(’p[@class='list']/a/@href’)[0].extract() yield item

問題解答

回答1:

建一個Url管理器,就不會重復抓取了

回答2:

知道了,改成這樣就可以了。

def start_requests(self):

yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 久久手机看片 | 日日爽日日操 | 日本精品视频一区二区三区 | 日本男人的天堂 | 国产91在线高潮白浆在线观看 | 4438x亚洲最大 | 免费在线观看一区二区 | 亚洲香蕉网站 | 在线观看免费黄色片 | 三年中国国语在线播放 | 欧美高清一区二区 | 青青偷拍视频 | 国产精品成人一区二区 | 蜜臀久久99精品久久久 | 国产亚洲区 | 精品偷拍网 | 操天天 | 亚洲欧美一二三区 | 亚洲国产精品va在线看黑人 | 欧美v日韩 | 国产主播精品 | 亚洲黄色在线免费观看 | 久久久久久久网 | 久久视频在线免费观看 | 国产精品久久久久久久久久久久久久 | 国产成人亚洲精品 | 国产乱来 | 国产九九| 四虎成人免费视频 | 亚洲天天在线 | 精品欧美久久 | 在线观看国产一区二区三区 | 亚洲国产伦理 | 国产精品69久久久久孕妇欧美 | 手机成人免费视频 | 影音先锋成人在线 | 国产网红在线观看 | 成人免费视频入口 | 午夜精品久久久久久 | 国产精品精品久久久久久 | 韩国一级淫一片免费放 |