python - scrapy url去重
問(wèn)題描述
請(qǐng)問(wèn)scrapy是url自動(dòng)去重的嗎?比如下面這段代碼,為什么運(yùn)行時(shí)start_urls里面的重復(fù)url會(huì)重復(fù)爬取了?
class TestSpider(scrapy.Spider): name = 'test' allowed_domains = ['baidu.com'] start_urls = [’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’,] def parse(self, response):for sel in response.xpath(’//p[@class='grid-list grid-list-spot']/ul/li’): item = TestspiderItem() item[’title’] = sel.xpath(’p[@class='list']/a/text()’)[0].extract() item[’link’] = sel.xpath(’p[@class='list']/a/@href’)[0].extract() yield item
問(wèn)題解答
回答1:建一個(gè)Url管理器,就不會(huì)重復(fù)抓取了
回答2:知道了,改成這樣就可以了。
def start_requests(self):
yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)
相關(guān)文章:
1. mac連接阿里云docker集群,已經(jīng)卡了2天了,求問(wèn)?2. docker網(wǎng)絡(luò)端口映射,沒(méi)有方便點(diǎn)的操作方法么?3. vim - docker中新的ubuntu12.04鏡像,運(yùn)行vi提示,找不到命名.4. 為什么我ping不通我的docker容器呢???5. angular.js - angular內(nèi)容過(guò)長(zhǎng)展開(kāi)收起效果6. golang - 用IDE看docker源碼時(shí)的小問(wèn)題7. 前端 - @media query 使用出現(xiàn)的問(wèn)題?8. html5和Flash對(duì)抗是什么情況?9. 運(yùn)行python程序時(shí)出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯(cuò)誤?10. spring-mvc - spring-session-redis HttpSessionListener失效

網(wǎng)公網(wǎng)安備