python - 請(qǐng)教如何爬取簡(jiǎn)書(shū)某一時(shí)間段發(fā)帖。
問(wèn)題描述
我想爬取簡(jiǎn)書(shū)在某一時(shí)間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語(yǔ)法
限定日期 
觀察大約有 70 個(gè)帖子 
google 的 site 語(yǔ)法
限定日期 
觀察大約有 120 個(gè)帖子 
實(shí)現(xiàn):用 Python 直接請(qǐng)求搜索的結(jié)果,然后把得到的網(wǎng)址重定向一下得到真正的簡(jiǎn)書(shū)網(wǎng)址,然后對(duì)真正的網(wǎng)址進(jìn)行請(qǐng)求
問(wèn)題
用這種方法得到的結(jié)果是否靠譜?請(qǐng)問(wèn)有更靠譜的方法嗎?
用 Google 還是用百度呢?
問(wèn)題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來(lái)用,不一定要限制在某個(gè)搜索引擎接口上。我們有隊(duì)友搜索某些話題就是這么干的,因?yàn)橛械木W(wǎng)站站內(nèi)沒(méi)提供滿足需求的搜索方式,這個(gè)時(shí)候也只有借助搜索引擎了。不過(guò)通過(guò)搜索引擎搜索的方式信息可能不全面,robots協(xié)議規(guī)定了不能搜索的,搜索引擎不會(huì)收錄
相關(guān)文章:
1. phpstudy8.1沒(méi)集成mysql-front2. Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問(wèn)題3. node.js - mongodb查找子對(duì)象的名稱(chēng)為某個(gè)值的對(duì)象的方法4. docker鏡像push報(bào)錯(cuò)5. 關(guān)docker hub上有些鏡像的tag被標(biāo)記““This image has vulnerabilities””6. docker 下面創(chuàng)建的IMAGE 他們的 ID 一樣?這個(gè)是怎么回事????7. 利用IPMI遠(yuǎn)程安裝centos報(bào)錯(cuò)!8. html5 - datatables 加載不出來(lái)數(shù)據(jù)。9. 前端 - @media query 使用出現(xiàn)的問(wèn)題?10. html5和Flash對(duì)抗是什么情況?

網(wǎng)公網(wǎng)安備