相关疑难解决方法(0)

从Python中的字符串中删除HTML

from mechanize import Browser
br = Browser()
br.open('http://somewebpage')
html = br.response().readlines()
for line in html:
  print line
Run Code Online (Sandbox Code Playgroud)

在HTML文件中打印一行时,我试图找到一种方法来只显示每个HTML元素的内容而不是格式本身.如果找到'<a href="whatever.com">some text</a>',它只会打印"一些文字",'<b>hello</b>'打印"你好"等等.怎么会这样做呢?

html python

254
推荐指数
11
解决办法
22万
查看次数

使用正则表达式删除html实体并提取文本内容

我有一个仅包含 HTML 实体的文本,例如&lt;&nbsp;我需要将其全部删除并仅获取文本内容:

&nbspHello there&lt;testdata&gt;
Run Code Online (Sandbox Code Playgroud)

所以,我需要从这个部分得到Hello theretestdata。有没有办法使用负前瞻来做到这一点?

我尝试了以下方法:/((?!&.+;).)+/ig但这似乎效果不佳。那么,我如何才能从那里提取所需的文本?

regex

6
推荐指数
2
解决办法
9702
查看次数

标签 统计

html ×1

python ×1

regex ×1