午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術(shù)文章
文章詳情頁

python - 關(guān)于代碼的優(yōu)化問題

瀏覽:243日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內(nèi)容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網(wǎng)站下來的,和網(wǎng)頁另存為沒什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 国产黄色片在线 | 一本一道精品欧美中文字幕 | 在线观看视频日韩 | 少妇高潮一区二区三区喷水 | 日韩在线欧美 | 日韩久久中文字幕 | 日韩美女免费视频 | 亚洲综合中文字幕在线 | 亚洲国产视频网站 | 国产刺激高潮av | 亚洲久久久久久 | 久久亚洲天堂网 | 欧美一卡二卡在线 | 爱爱视频天天干 | 日韩色图av | 黄色一级片视频 | 四虎影院在线免费播放 | 国产欧美在线观看视频 | 99re这里都是精品 | 欧美色图亚洲天堂 | 久久综合精品视频 | 亚洲一区高清 | 亚洲+小说+欧美+激情+另类 | 久久亚洲天堂网 | 午夜视频在线观看一区 | 制服.丝袜.亚洲.另类.中文 | 91免费精品视频 | 怡春院久久 | 成人免费在线视频网站 | 亚洲爱爱爱 | 青青视频二区 | 亚洲激情自拍偷拍 | 99riav1国产精品视频 | 国产精品视频在线免费观看 | jizz日本免费| 日本性高潮视频 | 国产911| 男人疯狂高潮呻吟视频 | 日本道不卡 | 日本亚洲欧美 | 17c国产精品一区二区 |