使用Python/Django从html获取第一张图片

Dan*_*yan 3 html python django image

我从服务中抓取一堆html并稍微解析它.我正在寻找一种从第一个图像标签中获取链接的方法.

像这个JQuery代码类似的东西:

var imagelink = $('img:first', feed.content).attr('src');
Run Code Online (Sandbox Code Playgroud)

但当然只使用Python/Django(服务器在Google应用引擎上运行).我宁愿不使用任何其他库,只是为了获取一个简单的链接.

Tim*_*ony 8

你可以使用BeautifulSoup来做到这一点:

http://www.crummy.com/software/BeautifulSoup/

它是一个XML/HTML解析器.所以你传入原始html,然后你可以搜索特定的标签/ attrs等.

这样的事情应该有效:

tree = BeautifulSoup(raw_html)
img_link = (tree.find('img')[0]).attr['src']
Run Code Online (Sandbox Code Playgroud)

  • 即使它仅用于文件中的一个链接,也有很多HTML需要解析.您可以尝试使用正则表达式查找<a href=..>的第一个实例,但您可能会发现BeautifulSoup方法最简单 (2认同)