当我执行 GET 请求（在 Python 中）时，我得到翻译的文本。如何获取英文内容？

Question

当我执行 GET 请求（在 Python 中）时，我得到翻译的文本。如何获取英文内容？

Ale*_*lex 2 python ip-address request web-scraping

我正在尝试通过网络抓取此页面以获得乐趣。

剧本运行良好，但有些电影的名字被翻译成罗马尼亚语（例如，“美女与野兽”是“Frumoasa si Bestia”）。

我猜服务器正在根据我的 IP 向我发送请求的内容。

但是，在我的浏览器中，我只能看到英文名称，无论我是使用我的 IP 还是通过浏览器的扩展程序激活 VPN。这可能是因为浏览器的语言设置为英语并且翻译选项关闭。

我的问题是：如何获得所有英文名字？

我可以在我的GET请求中指定一些参数来做到这一点吗？

import requests
page = requests.get(some_URL)

Run Code Online (Sandbox Code Playgroud)

I was also thinking about using a server VPN (not just a browser extension), but I'm running on Lubuntu and there seems to be a lot headache in installing a free VPN (accounts to be made etc.).

If it helps, I use Jupyter Notebook to code.

Answer 1

dan*_*era 6

I guess this site is serving pages based on browser language. Try to set it on requests:

import requests

url = r"http://www.imdb.com/search/title?release_date=2017&page=1&ref_=adv_nxt"
headers = {"Accept-Language": "en-US,en;q=0.5"}
r = requests.get(url, headers=headers)

Run Code Online (Sandbox Code Playgroud)

By the way. Check imdb web scrape's policy.

归档时间：	8 年，9 月前
查看次数：	1158 次
最近记录：	8 年，9 月前