在Python中使用LXML解析HTML

Question

在Python中使用LXML解析HTML

use*_*956 3 html python parsing lxml html-parsing

我正在尝试解析一个网站

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

Run Code Online (Sandbox Code Playgroud)

(有很多这些,我希望所有这些都以一种标记化的形式).不幸的是,HTML非常大而且有点复杂,因此尝试爬下树可能需要一些时间来整理嵌套元素.有没有一种简单的方法来检索它？

谢谢!

Answer 1

Jon*_*nts 14

如果你只想要a标签的href ,那么使用:

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

Run Code Online (Sandbox Code Playgroud)

@ user1922956阅读有关xpath的信息http://www.w3schools.com/xpath/xpath_syntax.asp (2认同)

归档时间：	12 年，11 月前
查看次数：	5318 次
最近记录：	12 年，11 月前