小编gth*_*hb7的帖子

nodejs web scraper用于受密码保护的网站

我正在尝试使用nodejs抓取一个网站,它可以在不需要任何身份验证的网站上完美运行.但每当我尝试使用需要用户名和密码的表单来抓取网站时,我只会从身份验证页面获取HTML(也就是说,如果您在身份验证页面上单击"查看页面源",那就是HTML I得到).我可以使用curl获得所需的HTML

curl -d "username=myuser&password=mypw&submit=Login" URL

Run Code Online (Sandbox Code Playgroud)

这是我的代码......

var express = require('express');
var fs = require('fs'); //access to file system
var request = require('request');
var cheerio = require('cheerio');
var app     = express();

app.get('/scrape', function(req, res){
url = 'myURL'

request(url, function(error, response, html){

    // check errors
    if(!error){
        // Next, we'll utilize the cheerio library on the returned html which will essentially give us jQuery functionality
        var $ = cheerio.load(html);

        var title, release, rating;
        var json = { title : "", release : …

Run Code Online (Sandbox Code Playgroud)

javascript authentication node.js web-scraping scrape

gth*_*hb7

lucky-day

5
推荐指数

1
解决办法

3454
查看次数