Crunchbase 和 Glassdoor 等站点都受 Distil Networks 保护,有什么方法可以通过编程方式从这些站点获取数据?我正在尝试 Scrapy+Splash,但不知何故他们能够检测到这一点。有没有其他方法可以使您的请求/javascript 验证与浏览器无法区分?
当 javascript 加载时,它会发出另一个 ajax 请求,其中应在响应中设置 cookie。但是,Splash 不会在多个请求中保留任何 cookie,有没有办法在所有请求中保留 cookie?或者甚至在每个请求之间手动分配它们。