我正在使用http://lxml.de/库解析一个html文档.到目前为止,我已经想出如何从html文档中剥离标签在lxml中,如何删除标签但保留所有内容?但是该帖子中描述的方法会留下所有文本,剥离标签而不删除实际的脚本.我还发现了一类参考lxml.html.clean.Cleaner http://lxml.de/api/lxml.html.clean.Cleaner-class.html,但是这是明确的泥至于如何实际使用的类清理文件.任何帮助,也许是一个简短的例子对我有帮助!
我正在尝试使用lxml和python第一次进行个人项目,我试图使用etree.strip_tags()从一些源代码中删除标签.
出于某种原因,我不断收到错误消息:"E1101:模块'lxml.etree'没有'strip_tags'成员'".
我不确定为什么会这样.
这是我的代码的相关部分:
from lxml import etree
...
DOC = etree.strip_tags(DOC_URL, 'html')
print DOC
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
谢谢.
我必须在xml文档中处理两种类型的内联标记.第一种类型的标签包含我想要保留的文本.我可以用lxml来解决这个问题
etree.tostring(element, method="text", encoding='utf-8')
Run Code Online (Sandbox Code Playgroud)
第二种类型的标签包括我不想保留的文本.我怎样才能摆脱这些标签及其文字?如果可能的话,我宁愿不使用正则表达式.
谢谢