相关疑难解决方法(0)

使用BeautifulSoup查找包含特定文本的HTML标记

我正在尝试获取包含以下文本模式的HTML文档中的元素:#\ S {11}

<h2> this is cool #12345678901 </h2>
Run Code Online (Sandbox Code Playgroud)

所以,之前的匹配将使用:

soup('h2',text=re.compile(r' #\S{11}'))
Run Code Online (Sandbox Code Playgroud)

结果将是这样的:

[u'blahblah #223409823523', u'thisisinteresting #293845023984']
Run Code Online (Sandbox Code Playgroud)

我能够得到匹配的所有文本(见上面的行).但我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点.在这种情况下,我希望返回所有h2元素,而不是文本匹配.

想法?

python regex beautifulsoup html-content-extraction

61
推荐指数
3
解决办法
7万
查看次数