午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術(shù)文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:211日期:2022-06-29 17:26:48

問題描述

現(xiàn)在采用的是在windows 環(huán)境下 采用多線程的方式進(jìn)行爬取,使用beautifulsoup+lxml進(jìn)行解析.

N個(gè)爬取線程->解析隊(duì)列->1個(gè)解析線程->存儲(chǔ)隊(duì)列->1個(gè)存儲(chǔ)線程

整個(gè)執(zhí)行程序的效率卡在計(jì)算密集的解析線程中,如果只是增加解析線程數(shù)量的話,反而增加線程切換開銷速度變慢。

請(qǐng)問下 有什么辦法可以較為明顯的提升解析效率?

根據(jù)兩位大腿的說明 準(zhǔn)備采用異步爬取->解析隊(duì)列->N個(gè)解析進(jìn)程->存儲(chǔ)隊(duì)列->存儲(chǔ)線程

準(zhǔn)備開工

問題解答

回答1:

其實(shí)我覺得, 你在前面N個(gè)爬取線程 可以換成協(xié)程/線程池實(shí)現(xiàn), 因?yàn)槟阍陬l繁創(chuàng)建線程本省一種性能耗費(fèi), 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協(xié)程這方面, 應(yīng)該是比較合適的.1個(gè)解析線程 換成 進(jìn)程池,多開幾個(gè)進(jìn)程去計(jì)算密集處理, 其余應(yīng)該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進(jìn)程。多進(jìn)程的好處是當(dāng)單機(jī)性能不夠的時(shí)候,可以隨時(shí)切換為分布式爬蟲。

回答3:

可以網(wǎng)上找下tornade異步爬蟲吧,我正在用這個(gè)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 看av网站| 国产精品久久久久久久久久免费 | 黄色一级视频免费看 | 久久精品国产成人av | www亚洲视频 | 精品一区二区三区免费 | 国内久久| www.色小姐com | 福利久久久 | 成人黄色录像 | 成人区视频 | 久久精品18| 亚色综合 | 麻豆精品网站 | 91色区| 一区二区三区在线观看视频 | 欧美网站在线观看 | 黄视频在线播放 | 日韩免费中文字幕 | 免费在线中文字幕 | 日韩爱爱网 | 91久久精品一区二区三区 | 你懂的免费在线观看 | 久久天堂精品 | 午夜精品免费视频 | 亚洲第一视频在线 | 宅男午夜影院 | aaaa毛片 | 精品一区二区视频在线观看 | 狠狠干欧美 | 亚洲丁香婷婷 | 在线观看国产精品一区 | 四虎新网址 | 日韩激情一区二区 | 国产一级久久 | 亚州综合网 | 欧美黄色精品 | 波多野吉衣av | 丁香婷婷久久 | 欧美顶级毛片在线播放 | 欧美成人aaa |