文章詳情頁

Python響應對象text屬性亂碼解決方案

瀏覽：187日期：2022-07-31 16:30:16

在獲得網頁響應對象res后，使用res.text屬性可以獲得網頁源代碼，但可能出現亂碼！因為requests庫會使用自動猜測的解碼方式將抓取的網頁源碼進行解碼，然后存儲到res對象的text屬性中；

但有的網站的編碼格式和requests庫默認的解碼格式（）不一樣（比如gbk gb2312是gbk的子集），這時候就要自己手動進行解碼，先獲得content屬性，返回的是bytes類型的字符串，再進行解碼decode（“網頁的編碼

格式”）

這時候可能出現新的問題

’gbk’ codec can’t decode byte 0xd0 in position 15264: illegal multibyte sequence

這是因為遇到了非法字符

比如網頁中有這種字符

Python響應對象text屬性亂碼解決方案

全角空格往往有多種不同的實現方式，比如xa3xa0，或者xa4x57，這些字符，看起來都是全角空格，但它們并不是“合法”的全角空格（真正的全角空格是xa1xa1），因此在轉碼的過程中出現了異常。

只要字符串中出現了一個非法字符，整篇文章就都無法轉碼。

對于這種字符，根本不需要，不重要！

解決方法：在解碼時候指定errors參數，

decode()的函數原型是decode([encoding], [errors=’strict’])，可以用第二個參數控制錯誤處理的策略，默認的參數是strict，代表遇到非法字符時拋出異常；

如果設置為ignore，則會忽略非法字符；如果設置為replace，則會用?取代非法字符；如果設置為xmlcharrefreplace，則使用XML的字符引用

#requests庫默認會使用自己猜測的解碼方式將抓取下來的網頁進行解碼，然后存儲到text屬性上去；#但在該網站中，編碼方式和默認的解碼方式不一樣，就會產生亂碼,所以要手動進行解碼，先獲得content再decode()解碼#右鍵查看網頁源代碼，發現是gb2312編碼，gb2312就是gbk的子集，所以用decode('gbk')

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python urlencode和unquote函數使用實例解析下一條：Python super()方法原理詳解

相關文章：

1. 詳解Android studio 動態fragment的用法2. Android如何加載Base64編碼格式圖片3. 解決Android studio xml界面無法預覽問題4. 圖文詳解vue中proto文件的函數調用5. 什么是python的自省6. Spring Boot和Thymeleaf整合結合JPA實現分頁效果(實例代碼)7. Vuex localStorage的具體使用8. php模擬實現斗地主發牌9. vue 使用localstorage實現面包屑的操作10. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現

排行榜

					
					圖文詳解vue中proto文件的函數調用
解決Android studio xml界面無法預覽問題
詳解Android studio 動態fragment的用法
Android如何加載Base64編碼格式圖片
Spring Boot和Thymeleaf整合結合JPA實現分頁效果(實例代碼)
什么是python的自省
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
在IDEA中實現同時運行2個相同的java程序
jQuery 實現DOM元素拖拽交換位置的實例代碼
Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現