thl*_*ood 2 python regex urllib
这是我获取网页图片网址的代码
对于某些网页,它运行良好,而它不适用于某些网页
这是我的代码:#!/ usr/bin/python
import urllib2
import re
#bufOne = urllib2.urlopen(r"http://vgirl.weibo.com/5show/user.php?fid=17262", timeout=4).read()
bufTwo = urllib2.urlopen(r"http://541626.com/pages/38307", timeout=4).read()
jpgRule = re.findall(r'http://[\w/]*?jpg', bufOne, re.IGNORECASE)
jpgRule = re.findall(r'http://[\w/]*?jpg', bufTwo, re.IGNORECASE)
print jpgRule
Run Code Online (Sandbox Code Playgroud)
bufOne工作得很好,但bufTwo没有奏效.那么如何为它编写一个标尺使bufTwo工作得很好?
不要使用正则表达式来解析HTML.而是使用Beautiful Soup查找所有img标签,然后获取src属性.
from BeautifullSoup import BeautifullSoup
#...
soup = BeautifulSoup(bufTwo)
imgTags = soup.findAll('img')
img = [tag['src'] for tag in imgTags]
Run Code Online (Sandbox Code Playgroud)