selenium - 請(qǐng)教一下 Python 爬蟲工具
問題描述
1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數(shù)據(jù)
我目前使用的是BeautifulSoup, selenium 和phantomjs
代碼 demo 大概是
driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)
問題是:1) 我不知道click 有沒有執(zhí)行成功, click 的元素對(duì)不對(duì), driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調(diào)了 js里的 click() 方法,并沒有觸發(fā) target 怎么辦3)我不知道是先渲染page_source, 還是 應(yīng)該先 click, 假設(shè)執(zhí)行成功了 click, 是不是也不會(huì)再 source 里返回了
啊, 謝各位爬蟲大佬了
問題解答
回答1:說(shuō)的是什么意思?百思不得其解啊。。。
selenium自動(dòng)化,click能模仿用戶點(diǎn)擊,就跟你自己在頁(yè)面上點(diǎn)擊一樣,一切都在虛擬瀏覽器驅(qū)動(dòng)中進(jìn)行。
看你的業(yè)務(wù)邏輯啊。。。比如有些數(shù)據(jù)要點(diǎn)擊后才有,那就先click再獲取源代碼。
相關(guān)文章:
1. node.js - mongodb查找子對(duì)象的名稱為某個(gè)值的對(duì)象的方法2. docker 下面創(chuàng)建的IMAGE 他們的 ID 一樣?這個(gè)是怎么回事????3. 運(yùn)行python程序時(shí)出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯(cuò)誤?4. html5 - datatables 加載不出來(lái)數(shù)據(jù)。5. 前端 - @media query 使用出現(xiàn)的問題?6. 利用IPMI遠(yuǎn)程安裝centos報(bào)錯(cuò)!7. javascript - 在 model里定義的 引用表模型時(shí),model為undefined。8. 測(cè)試自動(dòng)化html元素選擇器元素ID或DataAttribute [關(guān)閉]9. javascript - QQ第三方登錄的問題10. html5和Flash對(duì)抗是什么情況?

網(wǎng)公網(wǎng)安備