文章詳情頁(yè)

selenium - 請(qǐng)教一下 Python 爬蟲工具

瀏覽：244日期：2022-06-27 16:46:59

問題描述

1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數(shù)據(jù)

我目前使用的是BeautifulSoup, selenium 和phantomjs

代碼 demo 大概是

driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)

問題是:1) 我不知道click 有沒有執(zhí)行成功, click 的元素對(duì)不對(duì), driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調(diào)了 js里的 click() 方法,并沒有觸發(fā) target 怎么辦3)我不知道是先渲染page_source, 還是應(yīng)該先 click, 假設(shè)執(zhí)行成功了 click, 是不是也不會(huì)再 source 里返回了

啊, 謝各位爬蟲大佬了

問題解答

回答1：

說(shuō)的是什么意思？百思不得其解啊。。。

selenium自動(dòng)化，click能模仿用戶點(diǎn)擊，就跟你自己在頁(yè)面上點(diǎn)擊一樣，一切都在虛擬瀏覽器驅(qū)動(dòng)中進(jìn)行。

看你的業(yè)務(wù)邏輯啊。。。比如有些數(shù)據(jù)要點(diǎn)擊后才有，那就先click再獲取源代碼。

Python 編程

上一條：Python從URL中提取域名下一條：python - sklearn如何訓(xùn)練大規(guī)模數(shù)據(jù)集

相關(guān)文章：

1. node.js - mongodb查找子對(duì)象的名稱為某個(gè)值的對(duì)象的方法2. docker 下面創(chuàng)建的IMAGE 他們的 ID 一樣？這個(gè)是怎么回事？？？？3. 運(yùn)行python程序時(shí)出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯(cuò)誤？4. html5 - datatables 加載不出來(lái)數(shù)據(jù)。5. 前端 - @media query 使用出現(xiàn)的問題？6. 利用IPMI遠(yuǎn)程安裝centos報(bào)錯(cuò)！7. javascript - 在 model里定義的引用表模型時(shí)，model為undefined。8. 測(cè)試自動(dòng)化html元素選擇器元素ID或DataAttribute [關(guān)閉]9. javascript - QQ第三方登錄的問題10. html5和Flash對(duì)抗是什么情況？

排行榜

					
					html5 - datatables 加載不出來(lái)數(shù)據(jù)。
運(yùn)行python程序時(shí)出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯(cuò)誤？
node.js - mongodb查找子對(duì)象的名稱為某個(gè)值的對(duì)象的方法
docker  下面創(chuàng)建的IMAGE 他們的 ID 一樣？這個(gè)是怎么回事？？？？
javascript - QQ第三方登錄的問題
前端 - @media query 使用出現(xiàn)的問題？
javascript - 在 model里定義的 引用表模型時(shí)，model為undefined。
測(cè)試自動(dòng)化html元素選擇器元素ID或DataAttribute [關(guān)閉]
利用IPMI遠(yuǎn)程安裝centos報(bào)錯(cuò)！
html5和Flash對(duì)抗是什么情況？
docker 17.03 怎么配置 registry mirror ?
				

熱門標(biāo)簽

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

selenium - 請(qǐng)教一下 Python 爬蟲工具