Jas*_*sta 6 html python html5lib
有没有一种简单的方法来使用Python库html5lib来转换这样的东西:
<p>Hello World. Greetings from <strong>Mars.</strong></p>
Run Code Online (Sandbox Code Playgroud)
至
Hello World. Greetings from Mars.
Run Code Online (Sandbox Code Playgroud)
Nik*_* B. 12
使用lxml
解析器后端:
import html5lib
body = "<p>Hello World. Greetings from <strong>Mars.</strong></p>"
doc = html5lib.parse(body, treebuilder="lxml")
print doc.text_content()
Run Code Online (Sandbox Code Playgroud)
说实话,这实际上是作弊,因为它等同于以下(只更改了相关部分):
from lxml import html
doc = html.fromstring(body)
print doc.text_content()
Run Code Online (Sandbox Code Playgroud)
如果你真的想要html5lib
解析引擎:
from lxml.html import html5parser
doc = html5parser.fromstring(body)
print doc.xpath("string()")
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
5117 次 |
最近记录: |