午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術(shù)文章
文章詳情頁

python爬數(shù)據(jù),得到一個列表,但怎樣去掉里面的span標(biāo)簽?zāi)兀?/h1>
瀏覽:206日期:2022-07-11 09:18:11

問題描述

用p6ython3.6爬下了部分?jǐn)?shù)據(jù),但是最后顯示的是含span標(biāo)簽的列表,當(dāng)我用get_text、contents等方法,就會報錯。這是為什么呢?最開始返回的結(jié)果如下:

[<span>2017.5.2</span>][<span>2017.4.26</span>][<span>2017.4.24</span>][<span>2017.4.19</span>][<span>2017.3.23</span>][<span>2017.3.17</span>][<span>2017.2.14</span>][<span>2017.2.9</span>][<span>2017.2.6</span>][<span>2017.2.6</span>]

我的代碼如下:

import requestsfrom bs4 import BeautifulSoupimport re# def url_list():# for number in range(1,21):# url_links=[]# url='X'.format(i=number)# url_links.append(url)h={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36'}r=requests.get('url',headers=h)soup=BeautifulSoup(r.text,’lxml’)for data in soup.find('p',{'class':'list-main-eventset-finan'}).find_all('li'): content=data.find('i',{'class':'cell date'}).find_all('span') print(time)

問題解答

回答1:

bs的API記得不是很清楚了,應(yīng)該是有可以直接獲取文本的函數(shù)的,應(yīng)該是get_text()這個函數(shù)吧。由于你用的是find_all(),那么需要再在返回的結(jié)果下做一次遍歷,就是這樣

rs = list()for data in soup.find('p',{'class':'list-main-eventset-finan'}).find_all('li'): contents=data.find('i',{'class':'cell date'}).find_all('span') for content in contents:rs.append(content.get_text())

此外,也可以使用正則表達(dá)式來匹配,直接匹配<span>(.*?)<這個pattern。但是也得像上面那樣遍歷這個contens列表才行。

回答2:

題主可以試試 text_content() 方法

回答3:

正則表達(dá)式或者split+SUBSTRING也可以,靈活著用

標(biāo)簽: Python 編程

主站蜘蛛池模板: 中文字幕在线日亚洲9 | 婷婷狠狠爱 | 亚洲精品无吗 | 偷拍视频久久 | 亚洲一区二区三区精品视频 | 国产美女精品 | 久久天堂网 | 国产成人一区二区三区影院在线 | 日韩特黄一级片 | 欧美在线中文字幕 | 四虎在线免费观看视频 | 午夜特片网 | 九九热在线视频免费观看 | 免费精品在线 | 四虎影院在线免费观看 | 日韩精品亚洲一区 | 激情五月婷婷色 | 亚洲午夜久久久 | 自拍偷自拍亚洲精品播放 | 欧美黄色一级视频 | 性欧美疯狂猛交69hd | 黑丝白浆 | 中文字幕第11页 | 国产成人精品免高潮在线观看 | 青春草在线 | 国产视频1区2区 | 国产精品1 | 91夫妻视频 | 人人草人人爽 | h片在线播放 | 四虎网址在线观看 | 欧美成人a视频 | 成人在线免费av | 国产精品v欧美精品v日韩 | 国产精品成人在线视频 | 欧美综合二区 | 国产一区二区三区精品视频 | 天天综合亚洲 | 伊人天堂av | 成人午夜高清 | 四虎永久免费网站 |