文章詳情頁

網絡爬蟲 - python爬蟲爬取資料，是直接生成Excel文件還是存入Mysql有利于后期處理。

瀏覽：169日期：2022-09-17 13:17:15

問題描述

要處理的文件不多，就是幾萬條，都是些簡單的處理，Excel暫時也夠用。大概思路兩條：

1、python抓到的數據通過Python DB API 儲存到mysql中再做處理。2、直接把爬取到的資料用Phthon XlsxWriter模塊生成Execl文件（.xlsx）。

不知道哪條路線對自動生成文件和后期的處理比較方便。自己不太會用mysql,所以比較傾向用XlsxWriter模塊生成Execl文件，只是看了XlsxWriter模塊的一些文檔，也只是編寫數據內容和格式，然后生成Execl文件，不知道有沒有爬取的數據自動生成Execl文件比較簡單的實現（有一些爬蟲的框架可以實現，但是暫時沒有學習框架，因為只是想實現一些簡單的功能而已）。

問題解答

回答1：

我遇到過類似的問題, 最后選的是用 excel.這個完全看你的需求.哪個方便選哪個. 先說下我的情況.

我當時的需求每次只爬幾百條數據, 而且每次都是用完就扔.所以用 excel 更方便些. 操作 excel 我用的 openpyxl. 只用來保存爬取的數據, 不操作樣式, 用起來還是蠻簡單的.

看你的數據有幾萬條, 如果考慮以后還會持續增加的話, 還是直接存數據庫以后操作比較方便.話又說回來, 如果覺得現在存 excel 也能滿足自己需求的, 而且更方便的話, 存 excel 也行.以后隨著數據增長, 覺得 excel 不能滿足需求了, 寫個腳本直接把 excel 里的數據導入數據庫里.

看題主還擔心不熟悉 MySQL, 這個完全不是問題, 學過其他數據庫的話, 學 MySQL 也不是難事.

回答2：

數據庫

遲早要接觸的

數據少直接文本文件存儲都比 Excel 好...

回答3：

我覺得這個和用什么數據庫存儲沒關系，可以爬蟲爬取的數據存進execl里面，后期再自己寫程序將execl數據導入數據庫，這樣也能提高爬蟲處理的速度，如果在爬取過程中入庫就不太好了

回答4：

不懂mysql 就直接用 openpyxl

回答5：

存成csv文本文件, 照樣可以用Excel打開,也方便導入數據庫.

回答6：

SQLite

回答7：

數據少并發不高用Sqlite唄~不熟sql用ORM唄~例如peewee~

回答8：

后期處理肯定使用數據庫。

python

上一條：python3 正則表達式，在交互模式下和編程模式下運行結果不同下一條：python中self _init_(self,param1,param2)問題

排行榜

					
					golang - 用IDE看docker源碼時的小問題
html - css氣泡，實現“倒三角（不知道算不算三角了）”可透明的。
javascript - 請指條明路，angular的$event，在select中卻是undefined？
關于docker下的nginx壓力測試
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
docker - 如何修改運行中容器的配置
關docker hub上有些鏡像的tag被標記““This image has vulnerabilities””
docker鏡像push報錯
docker-machine添加一個已有的docker主機問題
angular.js - angularjs的自定義過濾器如何給文字加顏色？
運行python程序時出現“應用程序發生異常”的內存錯誤？
				

熱門標簽

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

網絡爬蟲 - python爬蟲爬取資料，是直接生成Excel文件還是存入Mysql有利于后期處理。