Python和web-tags正则表达式

Question

我需要网页内容.我需要从中获取一些数据.看起来像:

<div class ="deg"> DATA </ div>

据我所知,我必须使用正则表达式,但我不能选择一个.

我尝试了下面的代码,但没有任何结果.请纠正我:

regexHandler = re.compile('(<div class="deg">(?P<div class="deg">.*?)</div>)')
result = regexHandler.search( pageData )

Answer 1

我建议使用一个良好的HTML解析器(如BeautifulSoup -但你的目的,即具有良好的HTML作为输入,来与Python标准库中的,如HTMLParser的,也应该很好地工作)而不是原始的RE解析HTML.

如果你想坚持原始RE方法,模式:

r'<div class="deg">([^<]*)</div>'

看起来是从字符串''中获取字符串'DATA'的最简单方法<div class="deg">DATA</div>- 假设这就是你所追求的.您可能需要\s*在需要容忍可选空格的位置添加一个或多个.