需要帮助在python中使用正则表达式解析HTML

Question

需要帮助在python中使用正则表达式解析HTML

我的字符串是

mystring = "<tr><td><span class='para'><b>Total Amount : </b>INR (Indian Rupees) 
100.00</span></td></tr>"

Run Code Online (Sandbox Code Playgroud)

我的问题是我必须搜索并获得总金额

test = re.search("(Indian Rupees)(\d{2})(?:\D|$)", mystring)

Run Code Online (Sandbox Code Playgroud)

但是我的测试给了我没有.如何获取值和值可以是10.00,100.00,1000.00

谢谢

Answer 1

Eli*_*sky 7

我强烈建议使用真正的HTML解析器,而不是自定义的正则表达式.

以下是BeautifulSoup库的示例:

from BeautifulSoup import BeautifulSoup

str = r'''
<tr><td><span class='para'><b>Total Amount : </b>INR (Indian Rupees) 100.00</span></td></tr>
'''

soup = BeautifulSoup(str)

amount = soup.findAll('span', attrs={'class': 'para'})
amount_tokens = amount[0].text.split()
print amount_tokens[-1]

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，11 月前
查看次数：	209 次
最近记录：	11 年，3 月前