小编ahm*_*234的帖子

Pythonanywhere 上的网页抓取

在我的项目中,我从亚马逊抓取数据。我将其部署在 Pythonanywhere 上(我使用付费帐户)。但是有一个问题,当我在 Pythonanywhere 上尝试时,代码(我使用的是 BeautifulSoup4)无法获取网站的 html。它获得了亚马逊的“出问题了”网站。但在我本地它工作得很好。我认为它与用户代理有关。在我的本地,我使用我自己的用户代理。部署时我应该使用哪个用户代理?我该如何解决这个问题?

这是我的代码:

            URL = link    ##some amazon link
            headers = {"User-Agent": " ##my user agent"}

            page = requests.get(URL, headers=headers)
            soup1 = BeautifulSoup(page.content, 'html.parser')
            soup2 = BeautifulSoup(soup1.prettify(), "html.parser")
Run Code Online (Sandbox Code Playgroud)

有什么办法可以在 Pythonanywhere 上做到这一点吗?

python user-agent beautifulsoup web-scraping pythonanywhere

-1
推荐指数
1
解决办法
666
查看次数