如何在 Python 中使用 VPN 进行网页抓取?

Jar*_*rud 3 python ip vpn beautifulsoup web-scraping

我制作了一个 Python 程序,它使用 Beautifulsoup 来抓取 IMDB,以创建一个 mySQL 数据库,其中包含不同类别中所有评分最高的电影的表格。到目前为止,一切都很好。我的问题是我是在挪威做这件事的,许多电影标题都被翻译成挪威语。例如,在从挪威IP地址打开的IMDB顶部列表中,“肖申克的救赎”被翻译为“Frihetens Regn”。我想要所有的英文标题。是否有一些免费的 VPN 可以从 Python 激活并且可以与 Beautifulsoup 一起使用?或者有人对此有其他解决方案吗?

小智 5

您有几个选择:VPN 和代理。

首先,是的,您可以使用 VPN。然而,大多数 VPN 需要整个主机连接才能通过 VPN 建立隧道。市面上有一些不错的 VPN 服务,但有时一分钱一分货。我会谨慎使用免费 VPN,因为有些会出售您的网络,有些会出售您的数据。

其次,这可能是最简单的选择。使用代理。您可以告诉您的抓取工具通过免费的匿名代理来代理流量。您可以从 Google 找到这些免费代理的列表。或者您可以查看ProxyBroker,它会为您找到免费代理。这只需要通过美国 IP 地址代理抓取流量,而不是整个主机连接。

  • proxybroker的免费代理成功率较低(低于5%),付费VPN的成功率会更高吗?使用免费代理意味着我必须在 VPS 上投入越来越多的资金。我正在寻找三者中最优化的:(VPS1 + 免费代理)、(VPS2 + 付费 VPN)、(VPN3 + 付费代理) (2认同)