我正在尝试获取包含以下文本模式的HTML文档中的元素:#\ S {11}
<h2> this is cool #12345678901 </h2>
Run Code Online (Sandbox Code Playgroud)
所以,之前的匹配将使用:
soup('h2',text=re.compile(r' #\S{11}'))
Run Code Online (Sandbox Code Playgroud)
结果将是这样的:
[u'blahblah #223409823523', u'thisisinteresting #293845023984']
Run Code Online (Sandbox Code Playgroud)
我能够得到匹配的所有文本(见上面的行).但我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点.在这种情况下,我希望返回所有h2元素,而不是文本匹配.
想法?