文章詳情頁
python - scrapy 處理 文章 分頁的內(nèi)容
瀏覽:175日期:2022-08-03 16:15:10
問題描述
如一篇文章有2-3頁,然后想把這些內(nèi)容頁爬下來,拼接成一頁,然后再放入數(shù)據(jù)庫。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內(nèi)容。大概怎么寫呢?
問題解答
回答1:找到分頁接口url
回答2:找到那個下一頁的鏈接,加入到爬取url列表中
回答3:可以在rules里面寫正則自動掃描符合的url
相關(guān)文章:
1. 關(guān)docker hub上有些鏡像的tag被標(biāo)記““This image has vulnerabilities””2. docker-compose中volumes的問題3. boot2docker無法啟動4. nignx - docker內(nèi)nginx 80端口被占用5. docker安裝后出現(xiàn)Cannot connect to the Docker daemon.6. dockerfile - 為什么docker容器啟動不了?7. java - SSH框架中寫分頁時service層中不能注入分頁類8. node.js - antdesign怎么集合react-redux對input控件進(jìn)行初始化賦值9. 關(guān)于docker下的nginx壓力測試10. docker容器呢SSH為什么連不通呢?
排行榜

熱門標(biāo)簽
網(wǎng)公網(wǎng)安備