文章詳情頁

python Scrapy框架原理解析

瀏覽：175日期：2022-06-30 14:19:23

Python 爬蟲包含兩個重要的部分：正則表達式和Scrapy框架的運用，正則表達式對于所有語言都是通用的，網絡上可以找到各種資源。

如下是手繪Scrapy框架原理圖，幫助理解

python Scrapy框架原理解析

如下是一段運用Scrapy創建的spider：使用了內置的crawl模板，以利用Scrapy庫的CrawlSpider。相對于簡單的爬取爬蟲來說，Scrapy的CrawlSpider擁有一些網絡爬取時可用的特殊屬性和方法：

$ scrapy genspider country_or_district example.python-scrapying.com--template=crawl

運行genspider命令后，下面的代碼將會在example/spiders/country_or_district.py中自動生成。

# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom example.items import CountryOrDistrictItemclass CountryOrDistrictSpider(CrawlSpider): name = ’country_or_district’ allowed_domains = [’example.python-scraping.com’] start_urls = [’http://example.python-scraping.com/’] rules = ( Rule(LinkExtractor(allow=r’/index/’, deny=r’/user/’), follow=True), Rule(LinkExtractor(allow=r’/view/’, deny=r’/user/’), callback=’parse_item’), ) def parse_item(self, response): item = CountryOrDistrictItem() name_css = ’tr#places_country_or_district__row td.w2p_fw::text’ item[’name’] = response.css(name_css).extract() pop_xpath = ’//tr[@id='places_population__row']/td[@class='w2p_fw']/text()’ item[’population’] = response.xpath(pop_xpath).extract() return item

爬蟲類包括的屬性：

name: 識別爬蟲的字符串。 allowed_domains: 可以爬取的域名列表。如果沒有設置該屬性，則表示可以爬取任何域名。 start_urls: 爬蟲起始URL列表。 rules: 該屬性為一個通過正則表達式定義的Rule對象元組，用于告知爬蟲需要跟蹤哪些鏈接以及哪些鏈接包含抓取的有用內容。

以上就是python Scrapy框架原理解析的詳細內容，更多關于Scrapy框架原理的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：Python Selenium庫的基本使用教程下一條：如何用 Python 處理不平衡數據集

相關文章：

1. Android table布局開發實現簡單計算器2. jQuery 實現DOM元素拖拽交換位置的實例代碼3. 理解PHP5中static和const關鍵字4. php模擬實現斗地主發牌5. IntelliJ IDEA安裝插件的方法步驟6. spring acegi security 1.0.0 發布7. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現8. Python random庫使用方法及異常處理方案9. .Net Core使用Coravel實現任務調度的完整步驟10. Vuex localStorage的具體使用

排行榜

					
					Android table布局開發實現簡單計算器
jQuery 實現DOM元素拖拽交換位置的實例代碼
php模擬實現斗地主發牌
理解PHP5中static和const關鍵字
IntelliJ IDEA安裝插件的方法步驟
Docker 容器健康檢查機制
Python random庫使用方法及異常處理方案
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
Android 在 res/layout 文件夾 下創建一個 子文件夾實例
Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現