文章詳情頁

python爬蟲實例之獲取動漫截圖

瀏覽：14日期：2022-07-23 17:59:22

引言

之前有些無聊（呆在家里實在玩的膩了），然后就去B站看了一些python爬蟲視頻，沒有進行基礎的理論學習，也就是直接開始實戰，感覺跟背公式一樣的進行爬蟲，也算行吧，至少還能爬一些東西，hhh。我今天來分享一個我的爬蟲代碼。

正文

話不多說，直接上完整代碼

ps：這個代碼有些問題每次我爬到fate的圖片它就給我報錯，我只好用個try來跳過了，如果有哪位大佬能幫我找出錯誤并給與糾正，我將不勝感激

import requests as rimport reimport osimport timefile_name = '動漫截圖'if not os.path.exists(file_name): os.mkdir(file_name) for p in range(1,34): print('--------------------正在爬取第{}頁內容------------------'.format(p)) url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p) headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'} resp = r.get(url, headers=headers) html = resp.text images = re.findall(’data-original='(.*?)' ’, html) names =re.findall(’title='(.*?)'’, html) #print(images) #print(names) dic = dict(zip(images, names)) for image in images: time.sleep(1) print(image, dic[image]) name = dic[image] #name = image.split(’/’)[-1] i = r.get(image, headers=headers).content try: with open(file_name + ’/’ + name + ’.jpg’ , ’wb’) as f: f.write(i) except FileNotFoundError: continue

先導入要使用的庫

import requests as rimport reimport osimport time

然后去分析要去爬的網址： https://www.acgimage.com/shot/recommend

下圖是網址的內容：

python爬蟲實例之獲取動漫截圖

好了 url已經確定

下面去尋找headers

python爬蟲實例之獲取動漫截圖

找到user-agent 將其內容復制到headers中

第一步就完成了

下面是代碼展示

url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p)headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36' }

然后檢索要爬的圖片內容

python爬蟲實例之獲取動漫截圖

從上圖就可以找到圖片的位置：data-origina=后面的內容以及圖片的名字：title=后面的內容

然后用正則表達式re來檢索就行了

images = re.findall(’data-original='(.*?)' ’, html)names =re.findall(’title='(.*?)'’, html)

最后將其保存就好了

i = r.get(image, headers=headers).contentwith open(file_name + ’/’ + name + ’.jpg’ , ’wb’) as f: f.write(i)

還有就是一些細節了

比如換頁

第一頁網址：

https://www.acgimage.com/shot/recommend

第二頁網址：https://www.acgimage.com/shot/recommend?page=2

然后將page后面的數字改動就可以跳到相應的頁面

換頁的問題也就解決了

or p in range(1,34): url = ’https://www.acgimage.com/shot/recommend?page={}’.format(p)

以及將爬到的圖片放到自己建立的文件zh

使用了os庫

file_name = '動漫截圖' if not os.path.exists(file_name): os.mkdir(file_name)

以及為了不影響爬取的網站使用了sleep函數

雖然爬取的速度慢了一些

但是這是應遵守的道德

time.sleep(1)

以上這就是我的爬蟲過程

還是希望大佬能解決我的錯誤之處

萬分感謝

總結

到此這篇關于python爬蟲實例之獲取動漫截圖的文章就介紹到這了,更多相關python爬蟲獲取動漫截圖內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python代碼如何注釋下一條：Python模擬登入的N種方式(建議收藏)

相關文章：

1. 詳解Android studio 動態fragment的用法2. 什么是python的自省3. 解決Android studio xml界面無法預覽問題4. Spring Boot和Thymeleaf整合結合JPA實現分頁效果(實例代碼)5. 圖文詳解vue中proto文件的函數調用6. php模擬實現斗地主發牌7. Springboot Druid 自定義加密數據庫密碼的幾種方案8. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現9. vue 使用localstorage實現面包屑的操作10. Vuex localStorage的具體使用

排行榜

					
					圖文詳解vue中proto文件的函數調用
Spring Boot和Thymeleaf整合結合JPA實現分頁效果(實例代碼)
解決Android studio xml界面無法預覽問題
什么是python的自省
詳解Android studio 動態fragment的用法
php模擬實現斗地主發牌
Springboot Druid 自定義加密數據庫密碼的幾種方案
Spring MVC+ajax進行信息驗證的方法
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
在IDEA中實現同時運行2個相同的java程序