網(wǎng)頁(yè)爬蟲(chóng) - Python:爬蟲(chóng)的中文編碼問(wèn)題?
問(wèn)題描述
爬取中文網(wǎng)頁(yè)后正則匹配出中文,得打UTF-8的編碼字符
將其輸出為.csv文件
在.CSV中顯示為亂碼
用記事本打開(kāi).csv又可以正常顯示為中文
有沒(méi)有大神指點(diǎn)是怎么一回事?怎樣才能在Excel里直接看到中文?
問(wèn)題解答
回答1:簡(jiǎn)單地方法是用pandas的to_excel方法轉(zhuǎn)化成.xlsx文件,因?yàn)?xlsx默認(rèn)編碼是默認(rèn)支持Excel的,區(qū)別當(dāng)然是無(wú)法用記事本打開(kāi)。
import pandas as pda = pd.read_csv(’./test.csv’)a.to_excel(’./test_output.xlsx’, index=False)a.to_excel(’./test_output.csv’, index=False)
我這里沒(méi)有windows可以測(cè)試,可以嘗試寫(xiě)入編碼為gb2312或者gbk試試。
表格文件類(lèi)I/O的話其實(shí)pandas更方便一點(diǎn)。
回答2:abs1=abs1.decode().encode(’gbk’)
回答3:excel默認(rèn)使用的是GBK編碼。
回答4:新建一個(gè)excel文件,然后點(diǎn) 數(shù)據(jù) 自文本,導(dǎo)入csv文件
相關(guān)文章:
1. boot2docker無(wú)法啟動(dòng)2. 關(guān)docker hub上有些鏡像的tag被標(biāo)記““This image has vulnerabilities””3. docker-compose中volumes的問(wèn)題4. docker安裝后出現(xiàn)Cannot connect to the Docker daemon.5. java - SSH框架中寫(xiě)分頁(yè)時(shí)service層中不能注入分頁(yè)類(lèi)6. nignx - docker內(nèi)nginx 80端口被占用7. docker images顯示的鏡像過(guò)多,狗眼被亮瞎了,怎么辦?8. dockerfile - 為什么docker容器啟動(dòng)不了?9. docker容器呢SSH為什么連不通呢?10. 關(guān)于docker下的nginx壓力測(cè)試

網(wǎng)公網(wǎng)安備