如何使用node.js抓取需要身份验证的网站？

Question

有人可以解释如何使用node.js抓取需要登录的网站吗？

Answer 1

使用Mikeal的Request库,您需要启用这样的cookie支持:

var request = request.defaults({jar: true})

因此,您首先应该在该站点上创建用户名(手动),并在向该站点发出POST请求时将用户名和密码作为参数传递.之后,服务器将使用请求记住的cookie进行响应,这样您就可以访问要求您登录该站点的页面.

注意:如果在登录页面上使用了类似reCaptcha的内容,则此方法不起作用.

Answer 2

我已经使用 NodeJs Scrapers超过 2 年了

我可以告诉你，处理登录和身份验证的最佳选择是不要使用直接请求

那是因为您只是在构建手动请求上浪费时间，而且速度较慢，

相反，使用您通过Puppeteer或NightmareJs等 API 控制的高级浏览器

我有一个很好的入门指南和关于如何开始使用 Puppeteer 抓取的深入指南，我相信它会有所帮助！

Answer 3

var superagent = require('superagent')
var agent = superagent.agent();

agent那么一个持久的浏览器,这将处理获取,设置cookies,参照网址等只是agent.get,agent.post()为正常.