我需要网页内容.我需要从中获取一些数据.看起来像:
<div class ="deg"> DATA </ div>
据我所知,我必须使用正则表达式,但我不能选择一个.
我尝试了下面的代码,但没有任何结果.请纠正我:
regexHandler = re.compile('(<div class="deg">(?P<div class="deg">.*?)</div>)')
result = regexHandler.search( pageData )
Run Code Online (Sandbox Code Playgroud)
我建议使用一个良好的HTML解析器(如BeautifulSoup -但你的目的,即具有良好的HTML作为输入,来与Python标准库中的,如HTMLParser的,也应该很好地工作)而不是原始的RE解析HTML.
如果你想坚持原始RE方法,模式:
r'<div class="deg">([^<]*)</div>'
Run Code Online (Sandbox Code Playgroud)
看起来是从字符串''中获取字符串'DATA'的最简单方法<div class="deg">DATA</div>- 假设这就是你所追求的.您可能需要\s*在需要容忍可选空格的位置添加一个或多个.