午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術文章
文章詳情頁

網(wǎng)頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

瀏覽:182日期:2022-07-25 17:42:22

問題描述

寫了一小段代碼,爬取博客園博客中的圖片,這段代碼對部分鏈接有效,還有一部分鏈接一爬就報錯,這是什么原因呢?

#coding=utf-8import urllibimport refrom lxml import etree#解析地址def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#獲取地址并建樹url = 'http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html'html = getHtml(url)html = html.decode('utf-8')tree = etree.HTML(html)#保存圖片至本地reg = r’src='http://www.leifengta.com.cn/wenda/(.*?)' alt’imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0for imgurl in imglist: urllib.urlretrieve(imgurl, ’%s.jpg’ % x) x += 1

如圖,可以正確爬取圖片網(wǎng)頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

若把url換為

url = 'http://www.cnblogs.com/baronzhang/p/6861258.html'

則立馬報錯

網(wǎng)頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

求解決,謝謝!

問題解答

回答1:

錯誤提示已經(jīng)很明顯了,你去看下網(wǎng)頁源代碼,匹配到的第一張圖片是一個GIF格式的,并且還是相對路徑,所以你是下載不到的,故提示IOerror,就算你下載到了,因為你指定了格式為JPG,你也打不開。 因此你需要做的就是判斷和篩選

for imgurl in imglist: if 'gif' not in imgurl:urllib.urlretrieve(imgurl, ’%s.jpg’ % x)x += 1

看下我增加的地方,當然這只是最簡單的判斷,但可以保證你第二個程序不會報錯,也是給你一個思路!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 欧美在线观看一区二区 | 日韩av免费在线看 | 黄色av大片| 国产三级一区二区三区 | 米奇成人网 | 久久精品综合 | 在线免费日韩 | 99久久婷婷国产综合 | 午夜精品视频在线 | 国产黄免费 | 日本一本久草 | 亚洲伊人影院 | 肉视频在线观看 | 国产成人三级一区二区在线观看一 | 亚洲福利影院 | 国产美女在线观看 | 中文字幕av久久爽一区 | 在线成人免费观看 | 可以免费看毛片的网站 | 亚洲 欧美 日韩在线 | 精品久久一区二区三区 | 成人▇蘑菇视频▇观看 | 日本性爱视频在线观看 | www.狠狠操| 亚洲图片欧美色图 | 另类激情综合 | 午夜免费福利在线观看 | 天天曰 | 蜜臀久久99精品久久久画质超高清 | 欧美极品在线视频 | jlzzjlzz亚洲日本少妇 | 国产精品美女在线 | 欧美性aaa | 免费在线观看一级片 | 四虎在线免费视频 | 中文在线www | 99热只有 | 全球av在线| 国产日韩三级 | 九九国产视频 | 日韩福利社 |