Python lxml/beautiful soup查找网页上的所有链接

Question

我正在编写一个脚本来阅读网页,并构建一个符合特定条件的链接数据库.现在我被lxml困住,并了解如何<a href>从html中获取所有的...

result = self._openurl(self.mainurl)
content = result.read()
html = lxml.html.fromstring(content)
print lxml.html.find_rel_links(html,'href')

Answer 1

使用XPath.像(不能从这里测试)的东西:

urls = html.xpath('//a/@href')

Answer 2

有了iterlinks，lxml 为这个任务提供了一个很好的功能。

这为操作、存档、背景、引用、classid、代码库、数据、href、longdesc、配置文件、src、usemap、dynsrc 或 lowsrc 属性中的每个链接 [...] 生成（元素、属性、链接、位置） .