小编use*_*817的帖子

如何使用beautifulSoup从网站上提取和下载所有图像?

我试图从网址中提取和下载所有图像.我写了一个剧本

import urllib2
import re
from os.path import basename
from urlparse import urlsplit

url = "http://filmygyan.in/katrina-kaifs-top-10-cutest-pics-gallery/"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)

# download all images
for imgUrl in imgUrls:
    try:
        imgData = urllib2.urlopen(imgUrl).read()
        fileName = basename(urlsplit(imgUrl)[2])
        output = open(fileName,'wb')
        output.write(imgData)
        output.close()
    except:
        pass
Run Code Online (Sandbox Code Playgroud)

我不想提取这个页面的图像看到这个图像http://i.share.pho.to/1c9884b1_l.jpeg 我只是想获得所有图像而不点击"下一步"按钮我不知道怎么能我在"下一课"课程中得到了所有的照片.我应该在findall中做些什么改变?

python beautifulsoup

8
推荐指数
2
解决办法
3万
查看次数

标签 统计

beautifulsoup ×1

python ×1