如何使用Beautiful Soup提取此HTML元素属性的值？

Question

我正在开发一种刮取网页的小工具。我正在使用美丽汤。我想从页面中获取类ID。HTML代码如下所示：

<span class='class_id' id='New_line'></span>

我将如何获得class_id？

Answer 1

此答案指的是该问题的较旧版本，其中beautifulsoup未提及

您可以使用LXML并遍历所有要求它们提供“ class”属性值的元素。LXML是用于解析XML文档的库。

例如，例如：

from lxml import etree
root = etree.parse(filename).getroot()

for span in root.iterdescendants("span"):
    cls = span.attrib.get("class")