網(wǎng)絡(luò)爬蟲(chóng) - python爬蟲(chóng)爬取資料,是直接生成Excel文件還是存入Mysql有利于后期處理。
問(wèn)題描述
要處理的文件不多,就是幾萬(wàn)條,都是些簡(jiǎn)單的處理,Excel暫時(shí)也夠用。大概思路兩條:
1、python抓到的數(shù)據(jù)通過(guò)Python DB API 儲(chǔ)存到mysql中再做處理。2、直接把爬取到的資料用Phthon XlsxWriter模塊生成Execl文件(.xlsx)。
不知道哪條路線對(duì)自動(dòng)生成文件和后期的處理比較方便。自己不太會(huì)用mysql,所以比較傾向用XlsxWriter模塊生成Execl文件,只是看了XlsxWriter模塊的一些文檔,也只是編寫(xiě)數(shù)據(jù)內(nèi)容和格式,然后生成Execl文件,不知道有沒(méi)有爬取的數(shù)據(jù)自動(dòng)生成Execl文件比較簡(jiǎn)單的實(shí)現(xiàn)(有一些爬蟲(chóng)的框架可以實(shí)現(xiàn),但是暫時(shí)沒(méi)有學(xué)習(xí)框架,因?yàn)橹皇窍雽?shí)現(xiàn)一些簡(jiǎn)單的功能而已)。
問(wèn)題解答
回答1:我遇到過(guò)類(lèi)似的問(wèn)題, 最后選的是用 excel.這個(gè)完全看你的需求.哪個(gè)方便選哪個(gè). 先說(shuō)下我的情況.
我當(dāng)時(shí)的需求每次只爬幾百條數(shù)據(jù), 而且每次都是用完就扔.所以用 excel 更方便些. 操作 excel 我用的 openpyxl. 只用來(lái)保存爬取的數(shù)據(jù), 不操作樣式, 用起來(lái)還是蠻簡(jiǎn)單的.
看你的數(shù)據(jù)有幾萬(wàn)條, 如果考慮以后還會(huì)持續(xù)增加的話, 還是直接存數(shù)據(jù)庫(kù)以后操作比較方便.話又說(shuō)回來(lái), 如果覺(jué)得現(xiàn)在存 excel 也能滿足自己需求的, 而且更方便的話, 存 excel 也行.以后隨著數(shù)據(jù)增長(zhǎng), 覺(jué)得 excel 不能滿足需求了, 寫(xiě)個(gè)腳本直接把 excel 里的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)里.
看題主還擔(dān)心不熟悉 MySQL, 這個(gè)完全不是問(wèn)題, 學(xué)過(guò)其他數(shù)據(jù)庫(kù)的話, 學(xué) MySQL 也不是難事.
回答2:數(shù)據(jù)庫(kù)
遲早要接觸的
數(shù)據(jù)少 直接文本文件存儲(chǔ)都比 Excel 好...
回答3:我覺(jué)得這個(gè)和用什么數(shù)據(jù)庫(kù)存儲(chǔ)沒(méi)關(guān)系,可以爬蟲(chóng)爬取的數(shù)據(jù)存進(jìn)execl里面,后期再自己寫(xiě)程序?qū)xecl數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),這樣也能提高爬蟲(chóng)處理的速度,如果在爬取過(guò)程中入庫(kù)就不太好了
回答4:不懂mysql 就直接用 openpyxl
回答5:存成csv文本文件, 照樣可以用Excel打開(kāi),也方便導(dǎo)入數(shù)據(jù)庫(kù).
回答6:SQLite
回答7:數(shù)據(jù)少并發(fā)不高用Sqlite唄~不熟sql用ORM唄~例如peewee~
回答8:后期處理肯定使用數(shù)據(jù)庫(kù)。

網(wǎng)公網(wǎng)安備