相关疑难解决方法(0)

如何使用node.js抓取包含动态内容的页面？

我试图刮一个网站,但我没有得到一些元素,因为这些元素是动态创建的.

我在node.js中使用cheerio,我的代码在下面.

var request = require('request');
var cheerio = require('cheerio');
var url = "http://www.bdtong.co.kr/index.php?c_category=C02";

request(url, function (err, res, html) {
    var $ = cheerio.load(html);
    $('.listMain > li').each(function () {
        console.log($(this).find('a').attr('href'));
    });
});

Run Code Online (Sandbox Code Playgroud)

此代码返回空响应,因为页面加载时<ul id="store_list" class="listMain">为空.

内容尚未附加.

如何使用node.js获取这些元素？如何使用动态内容抓取页面？

javascript web-crawler node.js phantomjs

Jay*_*ayD

2019 05-16

22
推荐指数

3
解决办法

2万
查看次数

使用Node.js进行爬网

完成Node.js noob,所以不要判断我......

我有一个简单的要求.抓取网站,查找所有产品页面,并从产品页面保存一些数据.

更简单的说完了.

看看Node.js样本,我找不到类似的东西.

请求刮刀:

request({uri:'http://www.google.com'}, function (error, response, body) {
  if (!error && response.statusCode == 200) {
    var window = jsdom.jsdom(body).createWindow();
    jsdom.jQueryify(window, 'path/to/jquery.js', function (window, jquery) {
      // jQuery is now loaded on the jsdom window created from 'body'
      jQuery('.someClass').each(function () { /* Your custom logic */ });
    });
  }
});

Run Code Online (Sandbox Code Playgroud)

但是我无法弄清楚如何在刮擦根页面时调用它,或者填充它需要刮掉的数组或网址.

然后是http代理方式:

var agent = httpAgent.create('www.google.com', ['finance', 'news', 'images']);

agent.addListener('next', function (err, agent) {
  var window = jsdom.jsdom(agent.body).createWindow();
  jsdom.jQueryify(window, 'path/to/jquery.js', function (window, jquery) {
    // jQuery is …

Run Code Online (Sandbox Code Playgroud)

node.js

R0b*_*n1k

lucky-day

11
推荐指数

2
解决办法

1万
查看次数