文章詳情頁

網(wǎng)頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？

瀏覽：196日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網(wǎng)站，我需要判斷網(wǎng)頁是否可以爬取，第一反應(yīng)是通過狀態(tài)碼來判斷，但是寫完運行后發(fā)現(xiàn)有許多目標(biāo)網(wǎng)站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態(tài)碼卻是200，結(jié)果爬回來好多根本就不存在的頁面。這個本來是網(wǎng)站設(shè)置的問題，但是現(xiàn)在也不能用狀態(tài)碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態(tài)碼，是網(wǎng)絡(luò)連接狀態(tài)，所以你只判斷200并不能滿足所有網(wǎng)站。

其次，寫爬蟲嘛，你應(yīng)該實際去看看這些網(wǎng)站的規(guī)則是什么，可以先人工判斷下，找找規(guī)律，比如看看網(wǎng)頁返回內(nèi)容是不是有什么特點之類的。

回答2：

做個網(wǎng)頁內(nèi)容的判斷，如果他網(wǎng)頁里面沒有內(nèi)容就直接返回。

回答3：

就算是頁面狀態(tài)碼200，返回的404頁面，應(yīng)該和正常能爬取的頁面html有不同的html元素吧，根據(jù)有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內(nèi)如何跳轉(zhuǎn)至其他頁面。下一條：Python做掃描，發(fā)包速度實在是太慢了，有優(yōu)化的方案嗎？

相關(guān)文章：

1. node.js - nodejs+express+vue2. javascript - 我的站點貌似被別人克隆了， google 搜索特定文章，除了域名不一樣，其他的都一樣，如何解決？3. java - web端百度網(wǎng)盤的一個操作為什么要分兩次請求服務(wù)器, 有什么好處嗎4. 數(shù)據(jù)庫 - Mysql的存儲過程真的是個坑！求助下面的存儲過程哪里錯啦，實在是找不到哪里的問題了。5. javascript - 如何獲取未來元素的父元素在頁面中所有相同元素中是第幾個?6. python - 如何把152753這個字符串轉(zhuǎn)變成時間格式15:27:537. 使用mysql命令行連接遠(yuǎn)程數(shù)據(jù)庫host跳轉(zhuǎn)8. javascript - onclick事件點擊不起作用9. javascript - webpack-dev-server和webpack沖突嗎10. python 字符串匹配問題

排行榜

					
					node.js - nodejs+express+vue
淺談Vue static 靜態(tài)資源路徑 和 style問題
java - web端百度網(wǎng)盤的一個操作為什么要分兩次請求服務(wù)器, 有什么好處嗎
javascript - 我的站點貌似被別人克隆了， google 搜索特定文章，除了域名不一樣，其他的都一樣，如何解決？
webgl - android上類似汽車之家的3d全景照片怎么實現(xiàn)
python  字符串匹配問題
javascript - onclick事件點擊不起作用
數(shù)據(jù)庫 - Mysql的存儲過程真的是個坑！求助下面的存儲過程哪里錯啦，實在是找不到哪里的問題了。
javascript - 如何獲取未來元素的父元素在頁面中所有相同元素中是第幾個?
python - 如何把152753這個字符串轉(zhuǎn)變成時間格式15:27:53
javascript - webpack-dev-server和webpack沖突嗎
				

熱門標(biāo)簽

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

網(wǎng)頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？