use*_*956 3 html python parsing lxml html-parsing
我正在尝试解析一个网站
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
Run Code Online (Sandbox Code Playgroud)
(有很多这些,我希望所有这些都以一种标记化的形式).不幸的是,HTML非常大而且有点复杂,因此尝试爬下树可能需要一些时间来整理嵌套元素.有没有一种简单的方法来检索它?
谢谢!
Jon*_*nts 14
如果你只想要a标签的href ,那么使用:
data = """blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""
import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')
# ['THIS IS WHAT I WANT']
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5318 次 |
| 最近记录: |