我正在编写一个脚本来阅读网页,并构建一个符合特定条件的链接数据库.现在我被lxml困住,并了解如何<a href>从html中获取所有的...
result = self._openurl(self.mainurl)
content = result.read()
html = lxml.html.fromstring(content)
print lxml.html.find_rel_links(html,'href')
Run Code Online (Sandbox Code Playgroud)
Fre*_*Foo 11
使用XPath.像(不能从这里测试)的东西:
urls = html.xpath('//a/@href')
Run Code Online (Sandbox Code Playgroud)