基于python實現(xiàn)獲取網(wǎng)頁圖片過程解析
環(huán)境:python3, 要安裝bs4這個第三方庫
獲取請求頭的方法
這里使用的是Chrome瀏覽器。
打開你想查詢的網(wǎng)站,按F12,或者鼠標右鍵一下選擇檢查。會彈出如下的審查元素頁面:

然后點擊上方選項中的Network選項:

此時在按Ctrl+R:

選擇下方框中的第一個,單擊:

選擇Headers選項,其中就會有Request Headers,包括你需要的信息。
介紹:這個程序是用來批量獲取網(wǎng)頁的圖片,用于新手入門
注意:由于是入門的程序在獲取某些網(wǎng)頁的圖片時會出問題!!!!!
import osimport urllib.requestfrom bs4 import BeautifulSoup# 網(wǎng)址url = 'http://www2017.tyut.edu.cn/'# 建立請求對象request = urllib.request.Request(url)# 加入請求頭(一定要換成自己的!!!!)request.add_header(’User-Agent’, ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36’)# 獲取請求code = urllib.request.urlopen(request)# 得到html代碼html = code.read().decode(’utf-8’)# 將html的標簽轉(zhuǎn)成對象(方便后面的操作)bs = BeautifulSoup(html, ’html.parser’)# 提取所有的img標簽imagesUrl = bs.find_all(’img’)sources = []# 建立存放的路徑(路徑一定要存在!!!!!!)filepath = os.getcwd() + ’images’def createFile(path: str, fpath): urllib.request.urlretrieve(path, fpath)# 獲取圖片的路徑(網(wǎng)址+img標簽的src屬性的值)for img in imagesUrl: sources.append(url + str(img.get(’src’)))for src in sources: # 用split是防止請求帶參 baseName = os.path.basename(src).split(’?’) # 圖片名 fileName = filepath + baseName[0] print('url=' + src, 'filename=' + fileName) createFile(src, fileName)print(’這次您一共下載了圖片’ + str(len(sources)) + ’張’)
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. 理解PHP5中static和const關(guān)鍵字2. IntelliJ IDEA安裝插件的方法步驟3. php模擬實現(xiàn)斗地主發(fā)牌4. .Net Core使用Coravel實現(xiàn)任務(wù)調(diào)度的完整步驟5. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應(yīng)用實現(xiàn)6. jQuery 實現(xiàn)DOM元素拖拽交換位置的實例代碼7. Vuex localStorage的具體使用8. vue 使用localstorage實現(xiàn)面包屑的操作9. spring acegi security 1.0.0 發(fā)布10. MyBatis中的JdbcType映射使用詳解

網(wǎng)公網(wǎng)安備