文章詳情頁(yè)

python使用selenium爬蟲(chóng)知乎的方法示例

瀏覽：226日期：2022-07-06 18:50:26

說(shuō)起爬蟲(chóng)一般想到的情況是，使用 python 中都通過(guò) requests 庫(kù)獲取網(wǎng)頁(yè)內(nèi)容，然后通過(guò) beautifulSoup 進(jìn)行篩選文檔中的標(biāo)簽和內(nèi)容。但是這樣有個(gè)問(wèn)題就是，容易被反扒機(jī)制所攔住。

反扒機(jī)制有很多種，例如知乎：剛開(kāi)始只加載幾個(gè)問(wèn)題，當(dāng)你往下滾動(dòng)時(shí)才會(huì)繼續(xù)往下面加載，而且在往下滾動(dòng)一段距離時(shí)就會(huì)出來(lái)一個(gè)登陸的彈框。

這樣的機(jī)制對(duì)于通過(guò)獲取服務(wù)器返回內(nèi)容的爬蟲(chóng)方式進(jìn)行了限制，我們只能獲得前幾個(gè)回答，而沒(méi)辦法或許后面的回答。

所以需要使用 selenium 模擬真實(shí)瀏覽器進(jìn)行操作。

最終實(shí)現(xiàn)效果如下：

python使用selenium爬蟲(chóng)知乎的方法示例

前提是需要自行搜索教程安裝：

chromeDriver selenium 庫(kù)

想要使用下面代碼的可以直接修改 driver.get() 里的地址，然后爬取結(jié)果最終會(huì)存在message.txt文件中

代碼如下：

from selenium import webdriver # 從selenium導(dǎo)入webdriverfrom selenium.webdriver.common.by import By # 內(nèi)置定位器策略集from selenium.webdriver.support.wait import WebDriverWait # 用于實(shí)例化一個(gè)Driver的顯式等待from selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.action_chains import ActionChainsimport timeoption = webdriver.ChromeOptions()option.add_argument('headless')driver = webdriver.Chrome() # chrome_options=option 這個(gè)參數(shù)設(shè)置之后可以隱藏瀏覽器driver.get(’https://www.zhihu.com/question/22110581’) #修改這里的地址file = open('./messages.txt', 'w')def waitFun(): js = ''' let equalNum = 0; window.checkBottom = false; window.height = 0; window.intervalId = setInterval(()=>{ let currentHeight = document.body.scrollHeight; if(currentHeight === window.height){ equalNum++; if(equalNum === 2){clearInterval(window.intervalId);window.checkBottom = true; } }else{ window.height = currentHeight; window.scrollTo(0,window.height); window.scrollTo(0,window.height-1000); } },1500)''' # 這個(gè)暫停一下是因?yàn)橐却?yè)面將下面的內(nèi)容加載出,這個(gè) 1500 可以根據(jù)自己的網(wǎng)絡(luò)快慢進(jìn)行適當(dāng)?shù)恼{(diào)節(jié) # 這里需要往上移動(dòng)一下，因?yàn)椴煌弦苿?dòng)一下發(fā)現(xiàn)不會(huì)加載。 driver.execute_script(js)# selenium 可以獲取瀏覽器中 js 的變量。調(diào)用的js returndef getHeight(nice): # 這里獲取 js 中的 checkBottom 變量，作為到底部時(shí)進(jìn)行停止。 js = ''' return window.checkBottom; ''' return driver.execute_script(js)try: # 先觸發(fā)登陸彈窗。 WebDriverWait(driver, 40, 1).until(EC.presence_of_all_elements_located( (By.CLASS_NAME, ’Modal-backdrop’)), waitFun()) # 點(diǎn)擊空白關(guān)閉登陸窗口 ActionChains(driver).move_by_offset(200, 100).click().perform() # 當(dāng)滾動(dòng)到底部時(shí) WebDriverWait(driver, 40, 3).until(getHeight, waitFun()) # 獲取回答 answerElementArr = driver.find_elements_by_css_selector(’.RichContent-inner’) for answer in answerElementArr: file.write(’==================================================================================’) file.write(’n’) file.write(answer.text) file.write(’n’) print(’爬取成功 ’+ str(len(answerElementArr)) +’ 條，存入到 message.txt 文件內(nèi)’)finally: driver.close() #close the driver

這套代碼實(shí)現(xiàn)了打開(kāi)知乎，然后自動(dòng)向下滑動(dòng)，當(dāng)彈出登陸框時(shí)，自動(dòng)點(diǎn)擊左上角關(guān)閉登陸框。然后繼續(xù)向下滑動(dòng)，加載頁(yè)面，直到滑動(dòng)到底部。然后將內(nèi)容寫(xiě)在 message.txt 文件里面。

selenium 功能非常強(qiáng)大，可以模擬人為在瀏覽器的操作，進(jìn)行輸入、點(diǎn)擊、滑動(dòng)、播放、暫停等等操作，因此也可以用來(lái)寫(xiě)一些腳本，用來(lái)刷學(xué)時(shí)，搶課等等。

到此這篇關(guān)于python使用selenium爬蟲(chóng)知乎的方法示例的文章就介紹到這了,更多相關(guān)python selenium爬蟲(chóng)知乎內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

python

上一條：詳解Python流程控制語(yǔ)句下一條：python如何快速拼接字符串

相關(guān)文章：

1. IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法2. IntelliJ IDEA中Project與Module的概念以及區(qū)別3. asp文件用什么軟件編輯4. ASP新手必備的基礎(chǔ)知識(shí)5. Django項(xiàng)目如何正確配置日志(logging)6. idea給項(xiàng)目打war包的方法步驟7. php基礎(chǔ)字符串與數(shù)組知識(shí)點(diǎn)講解8. Android seekbar實(shí)現(xiàn)可拖動(dòng)進(jìn)度條9. java中應(yīng)用Stack進(jìn)行算術(shù)運(yùn)算的操作10. 詳解PHP laravel中的加密與解密函數(shù)

排行榜

					
					Android seekbar實(shí)現(xiàn)可拖動(dòng)進(jìn)度條
ASP新手必備的基礎(chǔ)知識(shí)
詳解PHP laravel中的加密與解密函數(shù)
Django項(xiàng)目如何正確配置日志(logging)
IntelliJ IDEA中Project與Module的概念以及區(qū)別
asp文件用什么軟件編輯
php基礎(chǔ)字符串與數(shù)組知識(shí)點(diǎn)講解
IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法
java中應(yīng)用Stack進(jìn)行算術(shù)運(yùn)算的操作
idea給項(xiàng)目打war包的方法步驟
IntelliJ IDEA創(chuàng)建web項(xiàng)目的方法
				

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

python使用selenium爬蟲(chóng)知乎的方法示例