如何使用机器人保护(Distil Networks)抓取 Crunchbase?

Jam*_*var 5 web-crawler scraper

Crunchbase 和 Glassdoor 等站点都受 Distil Networks 保护,有什么方法可以通过编程方式从这些站点获取数据?我正在尝试 Scrapy+Splash,但不知何故他们能够检测到这一点。有没有其他方法可以使您的请求/javascript 验证与浏览器无法区分?

iJa*_*ava 3

好吧,这可能不是非常正确的答案,而且也有点晚了,但尝试用 fiddler(我最喜欢的)跟踪浏览器,并检查 url、标头、具有 distil 标签、标头、cookie 的 cookie .. 你会看到 . Node.js 请求具有查询参数 PID=.....

例如 : 在此输入图像描述 当在 fiddler 中搜索“distil”时,黄色请求是我得到的一部分。接下来,第一个请求您会看到“ /trsnsvdstl-ce.js ”如果您检查源代码,您会发现长 PID= ... number 和 X-Distil-Ajax 标头,此外,您还可以在 respinse 中看到很多 cookie 包含 int D_XXX= 我认为最重要的是,如果您发出相同的请求,您可以看到参数p= ,然后 UrlDecode p,你会发现它很有趣,它有很多你的机器参数,比如你的浏览器中的工具、分辨率等。它是一个指纹。

好吧,在这一点上,我无法回答更多,只是开始深入研究这个问题。另外,什么确实有很大帮助,但要花钱的是好的代理,我不是在谈论免费的、缓慢的代理,我说的是像亚马逊云这样的东西,你可以在其中设置匿名级别,所以即使蒸馏也看不到,如果它是代理。

所以,现在就这样,对不起我糟糕的英语,祝你好运!:)