Python解析网页的图像URL

Question

Python解析网页的图像URL

这是我获取网页图片网址的代码

对于某些网页,它运行良好,而它不适用于某些网页

这是我的代码:#!/ usr/bin/python

import urllib2
import re
#bufOne = urllib2.urlopen(r"http://vgirl.weibo.com/5show/user.php?fid=17262", timeout=4).read()
bufTwo = urllib2.urlopen(r"http://541626.com/pages/38307", timeout=4).read()

jpgRule = re.findall(r'http://[\w/]*?jpg', bufOne, re.IGNORECASE)
jpgRule = re.findall(r'http://[\w/]*?jpg', bufTwo, re.IGNORECASE)
print jpgRule

Run Code Online (Sandbox Code Playgroud)

bufOne工作得很好,但bufTwo没有奏效.那么如何为它编写一个标尺使bufTwo工作得很好？

Answer 1

ddk*_*ddk 8

不要使用正则表达式来解析HTML.而是使用Beautiful Soup查找所有img标签,然后获取src属性.

from BeautifullSoup import BeautifullSoup

#...

soup = BeautifulSoup(bufTwo)
imgTags = soup.findAll('img')
img = [tag['src'] for tag in imgTags]

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，11 月前
查看次数：	552 次
最近记录：	13 年，7 月前