pns*_*pns 3 html python regex screen-scraping html-content-extraction
这不是真的在刮,我只是想在网页中找到具有特定值的网址.例如:
<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">
Run Code Online (Sandbox Code Playgroud)
我想获得href值.关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗?我猜html抓取libs,比如BeautifulSoup,对于这个来说有点矫枉过正......
非常感谢!
Yac*_*oby 16
正则表达式通常是一个坏主意,尝试使用BeautifulSoup
快速举例:
html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
#process link
Run Code Online (Sandbox Code Playgroud)