我正在寻找一条建议,因为我是python的新手.
让我们假设我有多个类似于以下数据块的数据块:
<td>
<a href="address.com" title=title">some title</a>
<br />
aaa<br />
bbb<br />
ccc</td>
有时br的数量不同,并且对于所有块都不是恒定的.
我的目的是从td块内部提取数据到文件,但我卡在这里.
这是正则表达式最好的方法吗?
先感谢您.
使用像BeautifulSoup(pip install beautifulsoup4)这样的HTML解析器解析HTML :
from bs4 import BeautifulSoup
html = """
<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>
"""
soup = BeautifulSoup(html)
for td in soup.find_all('td'):
print(td.get_text())
Run Code Online (Sandbox Code Playgroud)
结果如下:
some title aaa bbb ccc
Run Code Online (Sandbox Code Playgroud)