mongodb聚合查询未使用$ sum返回正确的总和

Roo*_*kie 6 mongodb mongodb-query aggregation-framework

我有一个收集学生的文件,格式如下: -

{
 _id:"53fe74a866455060e003c2db",
 name:"sam",
 subject:"maths",
 marks:"77"
}
{
 _id:"53fe79cbef038fee879263d2",
 name:"ryan", 
 subject:"bio",
 marks:"82"
}
{
 _id:"53fe74a866456060e003c2de",
 name:"tony",
 subject:"maths",
 marks:"86"
}
Run Code Online (Sandbox Code Playgroud)

我想得到所有学生的总分数= subject ="maths".所以我应该得到163总和.

db.students.aggregate([{ $match : { subject : "maths" } },
{ "$group" : { _id : "$subject", totalMarks : { $sum : "$marks" } } }])
Run Code Online (Sandbox Code Playgroud)

现在我应该得到以下结果 -

{"result":[{"_id":"53fe74a866455060e003c2db", "totalMarks":163}], "ok":1}
Run Code Online (Sandbox Code Playgroud)

但我得到 -

{"result":[{"_id":"53fe74a866455060e003c2db", "totalMarks":0}], "ok":1}
Run Code Online (Sandbox Code Playgroud)

有人能指出我在这里做错了什么吗?

chr*_*dam 5

您当前的架构将marks字段数据类型作为字符串,并且您的聚合框架需要一个整数数据类型来计算总和。另一方面,您可以使用MapReduce来计算总和,因为它允许使用原生 JavaScript 方法,例如parseInt()在其地图函数中的对象属性上。所以总的来说你有两个选择。


选项 1:更新架构(更改数据类型)

第一个是更改架构或在文档中添加另一个具有实际数值而不是字符串表示的字段。如果您收藏的文件尺寸比较小,你可以使用的MongoDB的光标的组合find()forEach()update()方法来改变你的标记模式:

db.student.find({ "marks": { "$type": 2 } }).snapshot().forEach(function(doc) {
    db.student.update(
        { "_id": doc._id, "marks": { "$type": 2 } }, 
        { "$set": { "marks": parseInt(doc.marks) } }
    );
});
Run Code Online (Sandbox Code Playgroud)

对于相对较大的集合大小,您的数据库性能会很慢,建议为此使用mongo 批量更新

MongoDB 版本 >= 2.6 和 < 3.2:

var bulk = db.student.initializeUnorderedBulkOp(),
    counter = 0;

db.student.find({"marks": {"$exists": true, "$type": 2 }}).forEach(function (doc) {    
    bulk.find({ "_id": doc._id }).updateOne({ 
        "$set": { "marks": parseInt(doc.marks) } 
    });

    counter++;
    if (counter % 1000 === 0) {
        // Execute per 1000 operations 
        bulk.execute(); 

        // re-initialize every 1000 update statements
        bulk = db.student.initializeUnorderedBulkOp();
    }
})

// Clean up remaining operations in queue
if (counter % 1000 !== 0) bulk.execute(); 
Run Code Online (Sandbox Code Playgroud)

MongoDB 3.2 及更新版本:

var ops = [],
    cursor = db.student.find({"marks": {"$exists": true, "$type": 2 }});

cursor.forEach(function (doc) {     
    ops.push({ 
        "updateOne": { 
            "filter": { "_id": doc._id } ,              
            "update": { "$set": { "marks": parseInt(doc.marks) } } 
        }         
    });

    if (ops.length === 1000) {
        db.student.bulkWrite(ops);
        ops = [];
    }     
});

if (ops.length > 0) db.student.bulkWrite(ops);
Run Code Online (Sandbox Code Playgroud)

选项 2:运行 MapReduce

第二种方法是使用MapReduce重写您的查询,您可以在其中使用 JavaScript 函数parseInt()

在您的MapReduce操作中,定义处理每个输入文档的映射函数。此函数将转换后的marks字符串值映射到subject每个文档的 ,并发出subject和 转换后的marks对。这是parseInt()可以应用JavaScript 原生函数的地方。注:函数中,this指的是map-reduce操作正在处理的文档:

var mapper = function () {
    var x = parseInt(this.marks);
    emit(this.subject, x);
};
Run Code Online (Sandbox Code Playgroud)

接下来,使用两个参数keySubject和定义相应的reduce 函数valuesMarksvaluesMarks是一个数组,其元素是marks由 map 函数发出并按 分组的整数值keySubject。该函数将valuesMarks数组减少为其元素的总和。

var reducer = function(keySubject, valuesMarks) {
    return Array.sum(valuesMarks);
};

db.student.mapReduce(
    mapper,
    reducer,
    {
        out : "example_results",
        query: { subject : "maths" }       
    }
 );
Run Code Online (Sandbox Code Playgroud)

使用您的集合,上述内容会将您的 MapReduce 聚合结果放入一个新集合中db.example_results。因此,db.example_results.find()将输出:

/* 0 */
{
    "_id" : "maths",
    "value" : 163
}
Run Code Online (Sandbox Code Playgroud)