相关疑难解决方法(0)

使用Python和lxml从HTML中删除class属性

如何使用python和lxml从html中删除类属性?

我有:

<p class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>
Run Code Online (Sandbox Code Playgroud)

我想要:

<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>
Run Code Online (Sandbox Code Playgroud)

到目前为止我尝试过的

我已经检查了lxml.html.clean.Cleaner但是,它没有一个方法来去除类属性.safe_attrs_only=True但是,您可以设置,这不会删除class属性.

重要的搜索结果似乎没有用.我认为class在html和python中使用的事实进一步混淆了搜索结果.许多结果似乎也严格遵守xml.

我对其他提供人性化界面的python模块持开放态度.

非常感谢.


感谢@Dan Roberts在下面的回答,我提出了以下解决方案.为将来到达这里的人们提出尝试解决同样的问题.

import lxml.html

# Our html string we want to remove the class attribute from
html_string = '<p class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>'

# Parse the html
html = lxml.html.fromstring(html_string)

# Print out our "Before"
print lxml.html.tostring(html)

# .xpath below …
Run Code Online (Sandbox Code Playgroud)

html python lxml

16
推荐指数
1
解决办法
4451
查看次数

标签 统计

html ×1

lxml ×1

python ×1