使用lxml从HTML解析段落

Fla*_*ake 2 python lxml

我是新限于lxml并要提取<p>PARAGRAPHS</p><li>PARAGRAPHS</li>从给定的URL,并将其用于进一步的措施.

我从帖子中跟踪了一个例子,并尝试了下面的代码而没有运气:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')
Run Code Online (Sandbox Code Playgroud)

我试着查看lxml.html中的示例,但没有找到任何使用url的示例.

你能给我一些关于我应该使用什么方法的提示吗?谢谢.

Aco*_*orn 7

import lxml.html

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')

print htmltree.xpath('//p/text()')
Run Code Online (Sandbox Code Playgroud)