Python HTML抓取

Question

这不是真的在刮,我只是想在网页中找到具有特定值的网址.例如:

<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">

我想获得href值.关于如何做到这一点的任何想法？也许正则表达式？你能发布一些示例代码吗？我猜html抓取libs,比如BeautifulSoup,对于这个来说有点矫枉过正......

非常感谢!

Answer 1

正则表达式通常是一个坏主意,尝试使用BeautifulSoup

快速举例:

html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
    #process link

Answer 2

幸运的是,在Python中我们有BeautifulSoup或lxml来为我们完成这项工作.