相关疑难解决方法(0)

如何在Python中通过Tor制作urllib2请求?

我正在尝试使用Python编写的爬虫来抓取网站.我想将Tor与Python集成,这意味着我想使用Tor匿名抓取该站点.

我试过这样做.它似乎不起作用.我检查了我的IP,它仍然与我使用tor之前的IP相同.我通过python检查了它.

import urllib2
proxy_handler = urllib2.ProxyHandler({"tcp":"http://127.0.0.1:9050"})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)
Run Code Online (Sandbox Code Playgroud)

python tor

49
推荐指数
3
解决办法
4万
查看次数

防止自定义Web爬网程序被阻止

我正在创建一个新的网络爬虫,C#用于抓取一些特定的网站.一切都很好.但问题是有些网站在一些请求后阻止我的抓取工具IP地址.我尝试在抓取请求之间使用时间戳.但没有奏效.

有什么方法可以阻止网站阻止我的抓取工具?像这样的一些解决方案会有所帮助(但我需要知道如何应用它们):

  • 模拟谷歌机器人或雅虎诽谤
  • 使用多个IP地址(事件虚假IP地址)作为爬虫客户端IP

任何解决方案都有帮助

c# web-crawler google-crawlers

2
推荐指数
1
解决办法
5036
查看次数

标签 统计

c# ×1

google-crawlers ×1

python ×1

tor ×1

web-crawler ×1