Kir*_*ran 3 html python screen-scraping beautifulsoup web-scraping
我正在开发一种刮取网页的小工具。我正在使用美丽汤。我想从页面中获取类ID。HTML代码如下所示:
<span class='class_id' id='New_line'></span>
Run Code Online (Sandbox Code Playgroud)
我将如何获得class_id?
此答案指的是该问题的较旧版本,其中beautifulsoup未提及
您可以使用LXML并遍历所有要求它们提供“ class”属性值的元素。LXML是用于解析XML文档的库。
例如,例如:
from lxml import etree
root = etree.parse(filename).getroot()
for span in root.iterdescendants("span"):
cls = span.attrib.get("class")
Run Code Online (Sandbox Code Playgroud)