使用lxml从HTML解析段落

Question

使用lxml从HTML解析段落

我是新限于lxml并要提取<p>PARAGRAPHS</p>并<li>PARAGRAPHS</li>从给定的URL,并将其用于进一步的措施.

我从帖子中跟踪了一个例子,并尝试了下面的代码而没有运气:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')

Run Code Online (Sandbox Code Playgroud)

我试着查看lxml.html中的示例,但没有找到任何使用url的示例.

你能给我一些关于我应该使用什么方法的提示吗？谢谢.

Answer 1

Aco*_*orn 7

import lxml.html

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')

print htmltree.xpath('//p/text()')

Run Code Online (Sandbox Code Playgroud)

归档时间：	14 年，3 月前
查看次数：	482 次
最近记录：	14 年，3 月前