相关疑难解决方法(0)

我正在尝试获取包含以下文本模式的HTML文档中的元素:#\ S {11}

<h2> this is cool #12345678901 </h2>

所以,之前的匹配将使用:

soup('h2',text=re.compile(r' #\S{11}'))

结果将是这样的:

[u'blahblah #223409823523', u'thisisinteresting #293845023984']

我能够得到匹配的所有文本(见上面的行).但我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点.在这种情况下,我希望返回所有h2元素,而不是文本匹配.

想法？

61
推荐指数

3
解决办法

7万
查看次数