from mechanize import Browser
br = Browser()
br.open('http://somewebpage')
html = br.response().readlines()
for line in html:
print line
Run Code Online (Sandbox Code Playgroud)
在HTML文件中打印一行时,我试图找到一种方法来只显示每个HTML元素的内容而不是格式本身.如果找到'<a href="whatever.com">some text</a>',它只会打印"一些文字",'<b>hello</b>'打印"你好"等等.怎么会这样做呢?
我有一个仅包含 HTML 实体的文本,例如<, 我需要将其全部删除并仅获取文本内容:
 Hello there<testdata>
Run Code Online (Sandbox Code Playgroud)
所以,我需要从这个部分得到Hello there和testdata。有没有办法使用负前瞻来做到这一点?
我尝试了以下方法:/((?!&.+;).)+/ig但这似乎效果不佳。那么,我如何才能从那里提取所需的文本?