午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - scrapy url去重

瀏覽:240日期:2022-08-24 16:35:16

問(wèn)題描述

請(qǐng)問(wèn)scrapy是url自動(dòng)去重的嗎?比如下面這段代碼,為什么運(yùn)行時(shí)start_urls里面的重復(fù)url會(huì)重復(fù)爬取了?

class TestSpider(scrapy.Spider): name = 'test' allowed_domains = ['baidu.com'] start_urls = [’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’,] def parse(self, response):for sel in response.xpath(’//p[@class='grid-list grid-list-spot']/ul/li’): item = TestspiderItem() item[’title’] = sel.xpath(’p[@class='list']/a/text()’)[0].extract() item[’link’] = sel.xpath(’p[@class='list']/a/@href’)[0].extract() yield item

問(wèn)題解答

回答1:

建一個(gè)Url管理器,就不會(huì)重復(fù)抓取了

回答2:

知道了,改成這樣就可以了。

def start_requests(self):

yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 九九国产精品视频 | 亚洲视频欧洲视频 | 欧美成人午夜精品免费 | 精品麻豆视频 | 伊人激情 | 毛片网站在线免费观看 | 国产成人看片 | 日本中文字幕在线播放 | 欧美午夜网站 | 亚洲国产一区二区三区 | 草草视频在线 | 伊人情人综合 | 黄片毛片在线观看 | 91精选国产 | 一二三四在线观看视频 | 天天人人精品 | 久久dvd| 久热只有精品 | 国产女人高潮时对白 | 日韩av免费一区 | 丝袜美腿在线 | 四虎免费av | 在线观看av的网站 | 亚洲一区视频在线 | 国产在线观看免费视频今夜 | 国产又黄又爽又色 | 99视频一区二区 | 国产精品一二三四五区 | 午夜影视大全 | 国产精品自产拍在线观看 | 欧美日韩色视频 | 国产精品成人久久久 | 在线免费观看毛片 | 第一页国产 | 成年人在线视频网站 | 五月天堂网| 久久不射影院 | 中文字幕第35页 | 最新中文字幕 | 天天看天天射 | 夜夜春夜爽 |