我正在尝试使用nodejs抓取一个网站,它可以在不需要任何身份验证的网站上完美运行.但每当我尝试使用需要用户名和密码的表单来抓取网站时,我只会从身份验证页面获取HTML(也就是说,如果您在身份验证页面上单击"查看页面源",那就是HTML I得到).我可以使用curl获得所需的HTML
curl -d "username=myuser&password=mypw&submit=Login" URL
Run Code Online (Sandbox Code Playgroud)
这是我的代码......
var express = require('express');
var fs = require('fs'); //access to file system
var request = require('request');
var cheerio = require('cheerio');
var app = express();
app.get('/scrape', function(req, res){
url = 'myURL'
request(url, function(error, response, html){
// check errors
if(!error){
// Next, we'll utilize the cheerio library on the returned html which will essentially give us jQuery functionality
var $ = cheerio.load(html);
var title, release, rating;
var json = { title : "", release : …Run Code Online (Sandbox Code Playgroud)