MongoDB map-reduce(通过nodejs):如何在scopeObj中包含复杂模块(带有依赖项)?

Dan*_*anM 10 javascript mapreduce mongodb node.js npm

我正在为mongodb数据库开发一个复杂的map-reduce进程.我已将一些更复杂的代码拆分为模块,然后通过将其包含在我的map中使其可用于我的map/reduce/finalize函数scopeObj:

  const scopeObj = {
    userCalculations: require('../lib/userCalculations')
  }

  function myMapFn() {
    let userScore = userCalculations.overallScoreForUser(this)
    emit({
      'Key': this.userGroup
    }, {
      'UserCount': 1,
      'Score': userScore
    })
  }

  function myReduceFn(key, objArr) { /*...*/ }

  db.collection('userdocs').mapReduce(
    myMapFn,
    myReduceFn,
    {
      scope: scopeObj,
      query: {},
      out: {
        merge: 'userstats'
      }
    },
    function (err, stats) {
      return cb(err, stats);
    }
  )
Run Code Online (Sandbox Code Playgroud)

......一切正常.直到最近我才认为不可能将模块代码包含到map-reduce中scopeObj,但事实证明这只是因为我试图包含的模块都依赖于其他模块.完全独立的模块似乎工作得很好.

这让我(最后)回答了我的问题.我怎么能 - 或者,就此而言,我应该把更复杂的模块,包括我从npm中提取的东西,加入到我的map-reduce代码中?有人认为我曾经使用Browserify或类似的东西将我的所有依赖项拉到一个文件中,然后以某种方式包含它......但我不确定这样做的正确方法是什么.而且我也不确定我在多大程度上冒着严重膨胀我的map-reduce代码的风险,这些代码(由于显而易见的原因)必须高效.

有没有人有经验做这样的事情?如果有的话,它是如何运作的?我在这里走错路吗?

更新:澄清我正在努力克服的问题:在上面的代码中,require('../lib/userCalculations')由Node执行 - 它读入文件../lib/userCalculations.js并将该文件module.exports对象的内容分配给scopeObj.userCalculations.但是,让我们说在内部的require(...)某个地方有一个电话userCalculations.js.该调用尚未实际执行.因此,当我尝试userCalculations.overallScoreForUser()在Map函数中调用时,MongoDB会尝试执行该require函数.并require没有在mongo上定义.

例如,Browserify通过将所有必需模块中的所有代码编译成没有require调用的单个javascript文件来处理此问题,因此可以在浏览器中运行.但这并不完全适用于此,因为我需要将结果代码本身作为一个模块,我可以使用,就像我userCalculations在代码示例中使用的那样.也许有一种奇怪的方式来运行我不知道的browserify?或者其他一些工具只是将整个模块层次"扁平"成一个模块?

希望这有点澄清.

Zla*_*tko 3

作为一般性回应,您的问题的答案是:我如何——或者就此而言,我应该——将更复杂的模块(包括我从 npm 中提取的内容)合并到我的 map-reduce 代码中?- 是的,您不能安全地将复杂模块包含在您计划发送到 MongoDB 以执行 mapReduce 作业的节点代码中

您自己提到了这个问题 - 嵌套require语句。现在,require 是同步的,但是如果您内部有嵌套函数,则这些 require 调用直到调用时间才会执行,并且 MongoDB VM 将在此时抛出异常。

考虑以下三个文件的示例:data.jsondep.jsmain.js

// data.json - just something we require "lazily"
false

// dep.js -- equivalent of your userCalculations
module.exports = {
  isValueTrue() {
    // The problem: nested require
    return require('./data.json');
  }
}


// main.js - from here you send your mapReduce to MongoDB.
// require dependency instantly
const calc = require('./dep.js');
// require is synchronous, the effectis the same if you do:
//   const calc = (function () {return require('./dep.js')})();

console.log('Calc is loaded.');
// Let's mess with unwary devs
require('fs').writeFileSync('./data.json', 'false');

// Is calc.isValueTrue() true or false here?
console.log(calc.isValueTrue());
Run Code Online (Sandbox Code Playgroud)

作为一般解决方案,这是不可行的。虽然绝大多数模块可能没有嵌套require语句、HTTP 调用,甚至内部、服务调用、全局变量等,但也有一些模块有。您不能保证这会起作用。

现在,作为您的本地实现:例如,您需要已经使用此技术进行了良好测试的 NPM 模块的确切特定版本,并且您知道它会起作用,或者您自己发布了它们,这在某种程度上是可行的。

然而,即使在这种情况下,如果这是一个团队的努力,那么肯定会有一个开发人员不知道你的依赖项在哪里使用或如何使用全局变量(不是故意的,而是由于疏忽,例如他们错误地计算this)或者根本不知道他们正在做的事情的含义。如果您有强大的集成测试套件,您可以防范这种情况,但问题是,它是不可预测的。我个人认为,当你可以在不可预测和可预测之间进行选择时,几乎总是应该使用可预测。

现在,如果您明确声明了要在 MongoDB mapReduce 中使用某个库的目的,那么这将起作用。你必须很好地防止遗漏和问题,并进行强有力的基础测试,但在感到足够安全之前,我会确保目的是明确的。但是当然,如​​果您使用的东西非常复杂,需要多个 npm 包才能完成,也许您可​​以直接在 MongoDB 服务器上使用这些功能,也许您可​​以使用更适合该目的的东西来执行 mapReducing,或者类似的。

总结:作为一个特意构建的库,具有明确的使命声明,即它将与 Node 和 MongoDB MapReduce 一起使用,我将确保我的测试涵盖所有关键任务和重要功能,然后导入此类 npm 包。否则我不会使用也不会推荐这种方法。