为什么我无法通过 BeautifulSoup 抓取亚马逊内容？

Question

为什么我无法通过 BeautifulSoup 抓取亚马逊内容？

yya*_*yan -1 python beautifulsoup web-scraping

这是我的Python代码：

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

Run Code Online (Sandbox Code Playgroud)

它适用于 google.com 和许多其他网站，但不适用于 amazon.com。

我可以在浏览器中打开 amazon.com，但生成的“汤”仍然没有。

此外，我发现它也无法从 appannie.com 上抓取。然而，代码并没有给出任何结果，而是返回一个错误：

HTTPError: HTTP Error 503: Service Temporarily Unavailable

Run Code Online (Sandbox Code Playgroud)

所以我怀疑亚马逊和 App Annie 是否会阻止抓取。

Answer 1

小智 5

添加一个标题，然后就可以了。

from bs4 import BeautifulSoup
import requests
url = "http://www.amazon.com/"

# add header
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.content, "lxml")
print soup

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，9 月前
查看次数：	9136 次
最近记录：	2 年，12 月前