Nat*_*hak 3 html image beautifulsoup src web-scraping
我正在关注这个过去的问题(根据使用 BeautifulSoup 的属性提取图像 src)尝试从谷歌图像页面中提取所有图像。我收到了“urllib2.HTTPError: HTTP Error 403: Forbidden”错误,但能够使用以下方法解决它:
req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0.742.112 Chrome/12.0.742.112 Safari/534.30"})
Run Code Online (Sandbox Code Playgroud)
但是,然后我收到了一个新错误,似乎在告诉我 src 属性不存在:
Traceback (most recent call last):
File "Desktop/webscrapev2.py", line 13, in <module>
print(tag['src'])
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/bs4/element.py", line 958, in __getitem__
return self.attrs[key]
KeyError: 'src'
Run Code Online (Sandbox Code Playgroud)
我能够通过专门检查 'src' 属性来克服该错误,但是我的大多数图像在提取时都没有 src 属性。似乎谷歌正在做一些事情来掩盖我提取甚至几张图像的能力(我知道请求是有限的,但我认为它至少是 10 个)。
例如打印出变量标签(见下面的代码)给我这个:
<img alt="Image result for baseball pitcher" class="rg_i" data-src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRZK59XKmZhYbaC8neSzY2KtS-aePhXYYPT2JjIGnW1N25codtr2A" data-sz="f" jsaction="load:str.tbn" name="jxlMHbZd-duNgM:" onload="google.aft&&google.aft(this)"/>
Run Code Online (Sandbox Code Playgroud)
但是打印出变量 v 给出了“无”。我不知道为什么会发生这种情况,也不知道如何从返回的内容中获取实际图像。有谁知道如何获得实际图像?我特别担心因为 data-src URL 以加密开头...我应该查询 data-src 来获取图像而不是 src 吗?任何帮助或建议将不胜感激!
这是我的完整代码(在 Python 中):
from bs4 import BeautifulSoup
import urllib2
url = "https://www.google.com/search? q=baseball+pitcher&espv=2&biw=980&bih=627&source=lnms&tbm=isch&sa=X&ved=0ahUKEwj5h8-9lfjLAhUE7mMKHdgKD0YQ_AUIBigB"
#'http://www.imdb.com/title/tt%s/' % (id,)
req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0.742.112 Chrome/12.0.742.112 Safari/534.30"})
soup = BeautifulSoup(urllib2.urlopen(req).read(), "lxml")
print "before FOR"
for tag in soup.findAll('img'):
print "inside FOR"
v = tag.get('src', tag.get('dfr-src')) # get's "src", else "dfr_src", if both are missing - None
print v
print tag
if v is None:
continue
print("v is NONE")
print(tag['src'])
Run Code Online (Sandbox Code Playgroud)
好家伙。您选择了错误的网站进行抓取。:)
首先,谷歌(显然)是谷歌。它非常了解网络爬虫和网络爬虫——它的整个业务都建立在它们之上。
因此,它知道普通人会掌握的所有技巧,更重要的是,它有一个重要的任务是确保除了最终用户之外没有其他人可以接触到他们的图像。
没有通过User-Agent标题?现在谷歌知道你是一个爬虫机器人,它不会冒充浏览器,并禁止你访问它的内容。这就是您403: Forbidden第一次遇到错误的原因- 服务器意识到您是机器人并阻止您访问材料。这是阻止自动化机器人的最简单技术。
不用JavaScript脚本的能力(其中的Python requests,urllib和它的同类没有)?现在您无法查看一半的图片,因为 Google 图片搜索结果的工作方式(如果您Network在加载 Google 图片时检查Chrome 控制台中的选项卡)是向各种内容提供者发出一些捆绑请求,然后系统地添加通过内联混淆的 Javascript 代码src将属性分配给占位符img标记。
一开始,您的所有图像基本上都是空白的,只有一个自定义data-src属性来协调活动。一旦浏览器开始解析 Javascript,就会向图像源提供者发出请求(因为 Google 可能使用自己的 CDN,这些图像会非常快地传输到您的计算机),然后页面 Javascript 执行分块接收的艰巨任务数据,确定img它应该去哪个占位符然后更新src适当地。这些都是耗时的操作,我什至不会假装知道谷歌如何让它们发生得如此之快(尽管请注意,在 Chrome 48 上的开发工具中搞乱网络节流操作可能会导致谷歌图像挂起,对于一些奇怪的原因,所以可能有一些主要的网络级代码在那里发生)。
这些图像源提供程序似乎以 开头https://encrypted...,这似乎不需要担心 - 这可能只是意味着 Google 在数据通过 HTTPS 之上的网络发送时对数据应用了自定义加密方案,然后浏览器解码。Google 在 HTTPS 之外实施端到端加密 - 我相信堆栈的每一层仅适用于加密数据,仅在最终和入口点进行加密和解密 - 看到背后的相同技术我不会感到惊讶,例如 Google 帐户。
(注意:以上所有内容都来自于在 Chrome Dev Tools 中闲逛并花时间使用去混淆器。我不隶属于 Google,我的理解很可能是不完整的,甚至是可悲的错误。)
如果没有捆绑的 Javascript 解释器,可以肯定地说 Google 图片实际上是一堵空白墙。
但是现在假设您使用能够解析和执行 Javascript 来更新页面 HTML 的刮刀 - 类似于无头浏览器(这是此类浏览器的列表)。您是否仍然期望仅通过访问 就能够获得所有图像src?
不完全是。Google 图片在其结果页面中嵌入了图片。
换句话说,它不链接到其他页面,它以文本格式复制图像,并以 base64 编码逐字写下图像。这显着减少了所需的连接数量并缩短了页面加载时间。
如果您导航到 Google 图片,右键单击任何图片,然后点击 ,您可以亲眼看到这一点Inspect element。以下是 Google 图片上图片的典型 HTML 标记:
<img data-sz="f" name="m4qsOrXytYY2xM:" class="rg_i" alt="Image result for google images" jsaction="load:str.tbn" onload="google.aft&&google.aft(this)" src="" style="width: 167px; height: 167px; margin-left: -7px; margin-right: -6px; margin-top: 0px;">
Run Code Online (Sandbox Code Playgroud)
请注意隐藏在src. 这就是图像本身,用 base 64 编写。当我们在屏幕上看到图像时,我们实际上是在查看由合适的图形引擎解析和渲染的文本的结果。现代浏览器支持对 base64 编码的 URI 进行解码和呈现,因此您可以直接将相关文本复制粘贴到地址栏中,点击Enter并立即查看图像,这并不奇怪。
要取回图像,您可以data:image/jpeg;base64,使用base64Python 中的模块解码此文本墙(在适当解析它以删除 之后):
import base64
base64_string = ... # that monster you saw above
decoded_string = base64.b64decode(your_string)
Run Code Online (Sandbox Code Playgroud)
您还必须确保从src属性的开头正确解析图像类型,将其写入decoded_string文件,最后使用您从data属性收到的文件扩展名保存。呸
不要将 Google 图片作为您的第一个主要抓取项目。它是
难的。维基百科更容易掌握。
违反了他们的服务条款(尽管刮擦不是什么?并注意我不是律师,这不构成法律建议)他们明确说
不要滥用我们的服务。例如,不要干扰我们的服务或尝试使用我们提供的界面和说明以外的方法访问它们。
真的无法预测如何改进。如果谷歌在尽可能地欺骗人类浏览器(例如,自定义 HTTP 标头)之后使用额外的身份验证机制,我不会感到惊讶,并且除了一位匿名叛逆的谷歌员工渴望将他/她的主人减少到碎石(不太可能)可以帮助你。
使用 Google 提供的Custom Search API明显更容易,它让您只需以编程方式向Google询问一组图像,而无需进行抓取。这个 API 的速率限制为每天大约一百个请求,这对于一个业余项目来说已经足够了。以下是有关如何将其用于图像的一些说明。通常,在考虑抓取之前使用 API 。
| 归档时间: |
|
| 查看次数: |
6231 次 |
| 最近记录: |