文章詳情頁

簡述python Scrapy框架

瀏覽：54日期：2022-07-13 18:27:22

一、Scrapy框架簡介

Scrapy是用純Python實現一個為了爬取網站數據，提取結構性數據而編寫的應用框架，用途非常廣泛。利用框架，用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常的方便。它使用Twisted這個異步網絡庫來處理網絡通訊，架構清晰，并且包含了各種中間件接口，可以靈活的完成各種需求。Scrapy是Python世界里面最強大的爬蟲框架，它比BeautifulSoup更加完善，BeautifulSoup可以說是輪子，而Scrapy則是車子，不需要關注太多的細節。

二、Scrapy原理

1.ScrapyEngine(引擎):負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，信號數據傳遞等。

2.Scheduler(調度器):它負責接受引擎發送過來的request請求，并按照定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。

3.Downloader(下載器):負責下載ScrapyEngine發送的所有requests請求，并將其獲取到的responses交還給ScrapyEngine，由引擎交給Spider來處理。

4.Spider(爬蟲):它負責處理所有Responses，從中分析提取數據，獲取ltem字段需要的數據，并將需要跟進的URL提交給引擎，再次進入Scheduler。

5.ItemPipeline(管道):它負責處理Spider中獲取到的ltem，并進行進行后期處理，詳細分析，過濾，存儲等的地方。

6.DownloaderMiddlewares(下載中間件):它是一個可以自定義擴展下載功能的組件。

7.SpiderMiddlewares(Spider中間件):它是一個可以自定擴展和操作引擎和Spider中間通信的功能組件比如進入Spider的Responses，和從Spider出去的Requests。

三、創建Scrapy項目

新建項目命令：

scrapy startproject xxx

在開始爬取之前,必須創建一個新的Scrapy項目。進入自定義的項目目錄中，運行下列命令:

scrapy startproject xxx

其中，xxx為項目名稱,可以看到將會創建一個xxx文件夾，目錄結構大致如下:

簡述python Scrapy框架

四、創建爬蟲

創建爬蟲的命令：

scrapy genspider 爬蟲名字網站域名

應當注意的是爬蟲名字不要和項目名字一-樣，網站域名是允許爬蟲采集的域名如，baidu. com，zhihu. com。創建后python文件如下:

簡述python Scrapy框架

五、總結

Scrapy框架相當于一輛造好的車子，只要我們會開，我們就可以利用這輛車子去到任意想去的地方。通常我們使用的request的方法就相當于在出發前再去造一輛車子，這是相當麻煩的。學好Scrapy，對于網上80%的網站我們都可以進行爬取。

以上就是簡述python Scrapy框架的詳細內容，更多關于python Scrapy框架的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：PyCharm vs VSCode，作為python開發者，你更傾向哪種IDE呢？下一條：python使用多線程查詢數據庫的實現示例

相關文章：

1. 理解PHP5中static和const關鍵字2. Android table布局開發實現簡單計算器3. jQuery 實現DOM元素拖拽交換位置的實例代碼4. IntelliJ IDEA安裝插件的方法步驟5. php模擬實現斗地主發牌6. vue 使用localstorage實現面包屑的操作7. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現8. Python random庫使用方法及異常處理方案9. .Net Core使用Coravel實現任務調度的完整步驟10. Vuex localStorage的具體使用

排行榜

					
					Android table布局開發實現簡單計算器
jQuery 實現DOM元素拖拽交換位置的實例代碼
php模擬實現斗地主發牌
理解PHP5中static和const關鍵字
IntelliJ IDEA安裝插件的方法步驟
Docker 容器健康檢查機制
Python random庫使用方法及異常處理方案
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
Android 在 res/layout 文件夾 下創建一個 子文件夾實例
Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現