Ale*_*lex 2 python ip-address request web-scraping
我正在尝试通过网络抓取此页面以获得乐趣。
剧本运行良好,但有些电影的名字被翻译成罗马尼亚语(例如,“美女与野兽”是“Frumoasa si Bestia”)。
我猜服务器正在根据我的 IP 向我发送请求的内容。
但是,在我的浏览器中,我只能看到英文名称,无论我是使用我的 IP 还是通过浏览器的扩展程序激活 VPN。这可能是因为浏览器的语言设置为英语并且翻译选项关闭。
我的问题是:如何获得所有英文名字?
我可以在我的GET请求中指定一些参数来做到这一点吗?
import requests
page = requests.get(some_URL)
Run Code Online (Sandbox Code Playgroud)
I was also thinking about using a server VPN (not just a browser extension), but I'm running on Lubuntu and there seems to be a lot headache in installing a free VPN (accounts to be made etc.).
If it helps, I use Jupyter Notebook to code.
I guess this site is serving pages based on browser language. Try to set it on requests:
import requests
url = r"http://www.imdb.com/search/title?release_date=2017&page=1&ref_=adv_nxt"
headers = {"Accept-Language": "en-US,en;q=0.5"}
r = requests.get(url, headers=headers)
Run Code Online (Sandbox Code Playgroud)
By the way. Check imdb web scrape's policy.
| 归档时间: |
|
| 查看次数: |
1158 次 |
| 最近记录: |