Python HTML抓取

pns*_*pns 3 html python regex screen-scraping html-content-extraction

这不是真的在刮,我只是想在网页中找到具有特定值的网址.例如:

<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">
Run Code Online (Sandbox Code Playgroud)

我想获得href值.关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗?我猜html抓取libs,比如BeautifulSoup,对于这个来说有点矫枉过正......

非常感谢!

Yac*_*oby 16

正则表达式通常是一个坏主意,尝试使用BeautifulSoup

快速举例:

html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
    #process link
Run Code Online (Sandbox Code Playgroud)


Dan*_*man 9

Aargh,不是用于解析HTML的正则表达式!

幸运的是,在Python中我们有BeautifulSouplxml来为我们完成这项工作.