eka*_*nna 19 javascript authentication node.js web-scraping
我发现了许多教程,解释了如何使用node.js刮取不需要身份验证/登录的公共网站.
有人可以解释如何使用node.js抓取需要登录的网站吗?
ale*_*lex 24
使用Mikeal的Request库,您需要启用这样的cookie支持:
var request = request.defaults({jar: true})
Run Code Online (Sandbox Code Playgroud)
因此,您首先应该在该站点上创建用户名(手动),并在向该站点发出POST请求时将用户名和密码作为参数传递.之后,服务器将使用请求记住的cookie进行响应,这样您就可以访问要求您登录该站点的页面.
注意:如果在登录页面上使用了类似reCaptcha的内容,则此方法不起作用.
小智 11
我已经使用 NodeJs Scrapers超过 2 年了
我可以告诉你,处理登录和身份验证的最佳选择是不要使用直接请求
那是因为您只是在构建手动请求上浪费时间,而且速度较慢,
相反,使用您通过Puppeteer或NightmareJs等 API 控制的高级浏览器
我有一个很好的入门指南和关于如何开始使用 Puppeteer 抓取的深入指南,我相信它会有所帮助!
或使用superagent:
var superagent = require('superagent')
var agent = superagent.agent();
Run Code Online (Sandbox Code Playgroud)
agent那么一个持久的浏览器,这将处理获取,设置cookies,参照网址等只是agent.get,agent.post()为正常.
| 归档时间: |
|
| 查看次数: |
30548 次 |
| 最近记录: |