如何使用机器人保护（Distil Networks）抓取 Crunchbase？

Question

如何使用机器人保护（Distil Networks）抓取 Crunchbase？

Crunchbase 和 Glassdoor 等站点都受 Distil Networks 保护，有什么方法可以通过编程方式从这些站点获取数据？我正在尝试 Scrapy+Splash，但不知何故他们能够检测到这一点。有没有其他方法可以使您的请求/javascript 验证与浏览器无法区分？

Answer 1

iJa*_*ava 3

好吧，这可能不是非常正确的答案，而且也有点晚了，但尝试用 fiddler（我最喜欢的）跟踪浏览器，并检查 url、标头、具有 distil 标签、标头、cookie 的 cookie .. 你会看到 . Node.js 请求具有查询参数 PID=.....

例如：当在 fiddler 中搜索“distil”时，黄色请求是我得到的一部分。接下来，第一个请求您会看到“ /trsnsvdstl-ce.js ”如果您检查源代码，您会发现长 PID= ... number 和 X-Distil-Ajax 标头，此外，您还可以在 respinse 中看到很多 cookie 包含 int D_XXX= 我认为最重要的是，如果您发出相同的请求，您可以看到参数p= ，然后 UrlDecode p，你会发现它很有趣，它有很多你的机器参数，比如你的浏览器中的工具、分辨率等。它是一个指纹。

好吧，在这一点上，我无法回答更多，只是开始深入研究这个问题。另外，什么确实有很大帮助，但要花钱的是好的代理，我不是在谈论免费的、缓慢的代理，我说的是像亚马逊云这样的东西，你可以在其中设置匿名级别，所以即使蒸馏也看不到，如果它是代理。

所以，现在就这样，对不起我糟糕的英语，祝你好运！:)

归档时间：	9 年，6 月前
查看次数：	2001 次
最近记录：	7 年，2 月前