相关疑难解决方法(0)

from mechanize import Browser
br = Browser()
br.open('http://somewebpage')
html = br.response().readlines()
for line in html:
  print line

在HTML文件中打印一行时,我试图找到一种方法来只显示每个HTML元素的内容而不是格式本身.如果找到'<a href="whatever.com">some text</a>',它只会打印"一些文字",'<b>hello</b>'打印"你好"等等.怎么会这样做呢？

254
推荐指数

11
解决办法

22万
查看次数

我有一个仅包含 HTML 实体的文本，例如<， 我需要将其全部删除并仅获取文本内容：

&nbspHello there&lt;testdata&gt;

所以，我需要从这个部分得到Hello there和testdata。有没有办法使用负前瞻来做到这一点？

我尝试了以下方法：/((?!&.+;).)+/ig但这似乎效果不佳。那么，我如何才能从那里提取所需的文本？

6
推荐指数

2
解决办法

9702
查看次数