我正在尝试使用Python编写的爬虫来抓取网站.我想将Tor与Python集成,这意味着我想使用Tor匿名抓取该站点.
我试过这样做.它似乎不起作用.我检查了我的IP,它仍然与我使用tor之前的IP相同.我通过python检查了它.
import urllib2
proxy_handler = urllib2.ProxyHandler({"tcp":"http://127.0.0.1:9050"})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)
Run Code Online (Sandbox Code Playgroud) 我正在创建一个新的网络爬虫,C#用于抓取一些特定的网站.一切都很好.但问题是有些网站在一些请求后阻止我的抓取工具IP地址.我尝试在抓取请求之间使用时间戳.但没有奏效.
有什么方法可以阻止网站阻止我的抓取工具?像这样的一些解决方案会有所帮助(但我需要知道如何应用它们):
任何解决方案都有帮助