午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術文章
文章詳情頁

python - 請教這個頁面中的這兩個信息能否不用無頭瀏覽器爬取到?

瀏覽:171日期:2022-09-22 16:46:47

問題描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'這個頁面的時候, 發(fā)現(xiàn)'擅長'和'執(zhí)業(yè)經歷'這兩個信息通過beautifulsoup是取不到的, 我選取這兩個信息的代碼如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查詢頁面發(fā)現(xiàn)這兩個信息好像是通過JS查詢的結果, 除了把網頁全部正則表達式匹配的方法, 請教各位: 1, 這兩個信息能否直接取到? 2, 除了類似'Selenium'這樣的工具, 是否還有其他方式能夠取到這兩個信息?3, 能否通過分析查詢接口的方式解決?

謝謝

問題解答

回答1:

可能這個頁面,你要抓的這個數(shù)據(jù),是頁面加載后,使用js渲染出來的。也就是說,這個#full_DoctorSpecialize里面的數(shù)據(jù)是ajax,從服務器上拿回來的。具體要如何拿這樣的數(shù)據(jù),你可以百度下 phantomjs ,你一定會 有收獲 的。

回答2:

這2個信息可以直接獲取,只是信息包含在JS塊中BigPipe.onPageletArrive({這個里面}) , 可以通過正則表達式獲取。這個里面是一段JSON格式的字符串。匹配之后轉換為json還是很容易處理的。想要通過查詢接口獲取的話,應該是可以的,不過得分析JS代碼,這個太麻煩,可以通過抓包工具來抓它的http請求。然后看看是那個請求返回的數(shù)據(jù)。相比較而言還是寫正則匹配比較快。

回答3:

這個就像樓上說的是js渲染的,內容在js代碼里面,可以正則匹配js代碼里面的元素,得到你想要的信息

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产精品毛片久久 | 久久妇女| 国产精品a久久久久 | av亚洲一区 | 久久一级黄色片 | 欧美精品在线一区二区三区 | 国产精品福利在线观看 | 午夜av片| 久久久免费网站 | 小视频在线播放 | 亚洲欧美日本一区 | ktv做爰视频一区二区 | 国产免费一区二区三区 | 95看片淫黄大片一级 | 爱爱视频网址 | 国产精品自产拍在线观看 | 一级做a爱片久久毛片 | 久久香蕉网 | 欧美一级一级 | 午夜精品视频在线 | 久久99国产精品 | 三级国产三级在线 | 亚洲涩情 | 国产精品免费视频一区二区三区 | 免费的黄色大片 | 色网站视频 | 中文字幕免费视频 | 综合久久综合 | 亚洲精品一区二区三区区别 | 欧美少妇xxxxx| 找国产毛片看 | 97福利网 | 97在线免费 | 日本黄色短片 | 特级黄色网 | 欧美第二区| av中文字幕观看 | 精品久久久久久久久久久国产字幕 | 日本一区二区三区四区视频 | 欧美国产日韩视频 | 国产麻豆一级片 |