如何使用python转换html数据

Lor*_*tto 0 python extract

我正在寻找一条建议,因为我是python的新手.

让我们假设我有多个类似于以下数据块的数据块:

<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>

有时br的数量不同,并且对于所有块都不是恒定的.

我的目的是从td块内部提取数据到文件,但我卡在这里.

这是正则表达式最好的方法吗?

先感谢您.

Ble*_*der 5

使用像BeautifulSoup(pip install beautifulsoup4)这样的HTML解析器解析HTML :

from bs4 import BeautifulSoup

html = """
<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>
"""

soup = BeautifulSoup(html)

for td in soup.find_all('td'):
    print(td.get_text())
Run Code Online (Sandbox Code Playgroud)

结果如下:

 some title  aaa bbb ccc
Run Code Online (Sandbox Code Playgroud)