午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術文章
文章詳情頁

Python爬蟲的亂碼問題?

瀏覽:196日期:2022-07-30 16:40:27

問題描述

使用python實現模擬登陸并爬取返回頁面的時候出現了亂碼,目標網頁的編碼使用utf-8Python爬蟲的亂碼問題?

相關代碼:

#coding=utf-8import urllibimport urllib2headers={ ’Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate’, ’Accept-Language’:’zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, ’Connection’:’keep-alive’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.73 Safari/537.36’}payload={ ’_eventId’:’submit’, ’lt’:’_cF2A0EB3F-D044-046C-6F4A-C828DE0ACE8E_k8B4BE5F5-4CAD-375D-0DDC-FB84A18445DF’, ’password’:’’, ’submit’:’登 錄’, ’username’:’’}payload=urllib.urlencode(payload)request = urllib2.Request(posturl, payload, headers)print requestresponse = urllib2.urlopen(request)text = response.read()print text

控制臺輸出信息:Python爬蟲的亂碼問題?

第一次遇見這種亂碼比較懵逼

問題解答

回答1:

urllib2沒有處理壓縮的問題,你要使用gzip解壓,比如這樣

from StringIO import StringIOimport gzipif response.info().get(’Content-Encoding’) == ’gzip’: buf = StringIO(text) f = gzip.GzipFile(fileobj=buf) data = f.read()

總結urllib2比較底層,建議使用requests

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产视频一二区 | 影音先锋国产资源 | 久久久国产精品一区 | 成人香蕉视频在线观看 | 国产少妇自拍 | 欧美日韩三级 | 国产乱人乱偷精品视频 | 久久久久99精品国产片 | 黄色片网站免费观看 | 精品国产一区二区三区久久久蜜臀 | 免费在线看黄的网站 | xxx日本黄色 | 久久久久久久福利 | av国语| 亚洲影视精品 | 久久深夜福利 | 天天拍夜夜操 | 91黄色免费版| 日韩一区二区三区三四区视频在线观看 | 日韩在线视频免费看 | 成人欧美一区二区 | 97在线观看免费视频 | 你懂的免费在线观看 | 中文字幕无线码一区 | 久久鬼色 | 亚洲大片 | 99热99re6国产在线播放 | av在线播放网址 | 亚洲自拍三区 | 91亚洲精品视频 | 九九在线 | 欧美黄色大全 | 亚洲免费黄色网址 | 天天色婷婷 | 婷婷社区五月天 | 天天干天天谢 | 亚洲第一在线视频 | 欧美激情福利 | 成人高清 | 国产一区二区三区免费 | 欧美v片|