MongoDb：如何从文档中获取字段（子文档）？

Question

MongoDb：如何从文档中获取字段（子文档）？

fat*_*sma 4 javascript python mongodb pymongo aggregation-framework

考虑这个示例集合：

 {
    "_id:"0,
    "firstname":"Tom",
    "children" : {
                    "childA":{
                                "toys":{
                                        'toy 1':'batman',
                                        'toy 2':'car',
                                        'toy 3':'train',
                                        }
                                "movies": {
                                        'movie 1': "Ironman"
                                        'movie 2': "Deathwish"
                                        }
                                },
                    "childB":{
                                "toys":{
                                        'toy 1':'doll',
                                        'toy 2':'bike',
                                        'toy 3':'xbox',
                                        }
                                "movies": {
                                        'movie 1': "Frozen"
                                        'movie 2': "Barbie"
                                        }
                                }
                    }
}

Run Code Online (Sandbox Code Playgroud)

现在我只想从特定文档中检索电影。

我尝试过这样的事情：

movies = users.find_one({'_id': 0}, {'_id': 0, 'children.ChildA.movies': 1})

Run Code Online (Sandbox Code Playgroud)

然而，我得到了从“儿童”到“电影”的整个领域结构及其内容。我如何进行查询并仅检索“电影”的内容？

具体来说，我想以这样的方式结束：

                                       {
                                        'movie 1': "Frozen"
                                        'movie 2': "Barbie"
                                        }

Run Code Online (Sandbox Code Playgroud)

Answer 1

Nei*_*unn 5

这里的问题是您当前的数据结构不太适合查询。这主要是因为您使用“键”来实际表示“数据点”，虽然它最初似乎是一个合乎逻辑的想法，但实际上是一种非常糟糕的做法。

因此，与其执行诸如将“childA”和“childB”分配为对象或“子文档”的键之类的操作，不如将这些“值”分配给结构中的通用键名称，如下所示：

 {
    "_id:"0,
    "firstname":"Tom",
    "children" : [
        { 
            "name": "childA", 
            "toys": [
                "batman",
                "car",
                "train"
            ],
            "movies": [
                "Ironman"
                "Deathwish"
            ]
        },
        {
            "name": "childB",
            "toys": [
                "doll",
                "bike",
                "xbox",
            ],
            "movies": [
                "Frozen",
                "Barbie"
            ]
        }
    ]
}

Run Code Online (Sandbox Code Playgroud)

不是最好的，因为存在嵌套数组，这可能是一个潜在的问题，但也有解决方法（但稍后），但这里的要点是这比在“键”中定义数据要好得多。命名不一致的“键”的主要问题是 MongoDB 通常不允许任何方式“通配”这些名称，因此您只能使用命名和“绝对路径”来访问元素，如下所示：

儿童 -> childA -> 玩具
儿童 -> childB -> 玩具

简而言之，这很糟糕，与此相比：

"children.toys"

Run Code Online (Sandbox Code Playgroud)

从上面准备的示例来看，我想说这是一种更好的组织数据的方法。

即便如此，仅仅返回诸如“唯一的电影列表”之类的内容超出了.find()MongoDB 中标准类型查询的范围。这实际上需要更多的“文档操作”，并且在 MongoDB 聚合框架中得到了很好的支持。它具有查询方法中不存在的广泛操作功能，并且作为具有上述结构的每个文档响应，您可以执行以下操作：

db.collection.aggregate([
    # De-normalize the array content first
    { "$unwind": "$children" },

    # De-normalize the content from the inner array as well
    { "$unwind": "$children.movies" },

    # Group back, well optionally, but just the "movies" per document
    { "$group": {
        "_id": "$_id",
        "movies": { "$addToSet": "$children.movies" }
    }}
])

Run Code Online (Sandbox Code Playgroud)

因此，现在文档中的“列表”响应仅包含“独特”电影，这更符合您的要求。或者，您也可以$push制作一个“非唯一”列表。但愚蠢的是，这实际上与此相同：

db.collection.find({},{ "_id": False, "children.movies": True })

Run Code Online (Sandbox Code Playgroud)

作为“集合范围”的概念，您可以通过简单地使用该.distinct()方法来简化它。它基本上根据您提供的输入形成一个“不同”键的列表。这对于数组来说效果非常好：

db.collection.distinct("children.toys")

Run Code Online (Sandbox Code Playgroud)

这本质上是对集合中每个“玩具”值的所有“不同”出现的集合范围的分析，并作为简单的“数组”返回。

但对于你现有的结构，它值得一个解决方案来解释，但你必须明白这个解释是可怕的。这里的问题是，可用于一般查询和聚合方法的“本机”和优化方法根本不可用，唯一可用的选项是基于 JavaScript 的处理。尽管通过“v8”引擎集成稍微好一点，但与本机代码方法并排比较时，仍然是完全无精打采的。

因此，从您拥有的“原始”形式（JavaScript 形式，函数必须很容易翻译”）：

 db.collection.mapReduce(
     // Mapper
     function() {
         var id this._id;
             children = this.children;

         Object.keys(children).forEach(function(child) {
             Object.keys(child).forEach(function(childKey) {
                 Object.keys(childKey).forEach(function(toy) {
                     emit(
                         id, { "toys": [children[childkey]["toys"][toy]] }
                     );
                 });
             });
         });
     },
     // Reducer
     function(key,values) {
         var output = { "toys": [] };

         values.forEach(function(value) {
             value.toys.forEach(function(toy) {
                 if ( ouput.toys.indexOf( toy ) == -1 )
                     output.toys.push( toy );
             });
         });
     },
     {
         "out": { "inline": 1 }
     }
)

Run Code Online (Sandbox Code Playgroud)

因此，JavaScript 求值是一种“可怕”的方法，因为它的执行速度要慢得多，而且您会看到需要实现的“遍历”代码。对于性能来说是个坏消息，所以不要这样做。而是改变结构。

作为最后一部分，您可以对此进行不同的建模，以避免“嵌套数组”概念。并了解“嵌套数组”的唯一真正问题是，如果不读取整个文档并修改它，“更新”嵌套元素实际上是不可能的。

所以$push方法$pull工作得很好。但是使用“位置”$运算符不起作用，因为“外部”数组索引始终是“第一个”匹配元素。因此，如果这对您来说确实是个问题，那么您可以这样做，例如：

 {
    "_id:"0,
    "firstname":"Tom",
    "childtoys" : [
        { 
            "name": "childA", 
            "toy": "batman"
        }.
        { 
            "name": "childA",
            "toy": "car"
        },
        {
            "name": "childA",
            "toy": "train"
        },
        {
            "name": "childB",
            "toy": "doll"
        },
        {
            "name": "childB",
            "toy": "bike"
        },
        {
            "name": "childB",
            "toy": "xbox"
        }
    ],
    "childMovies": [
        {
             "name": "childA"
             "movie": "Ironman"
       },
       {
            "name": "childA",
            "movie": "Deathwish"
       },
       {
            "name": "childB",
            "movie": "Frozen"
       },
       {
            "name": "childB",
            "movie": "Barbie"
       }
  ]
}

Run Code Online (Sandbox Code Playgroud)

如果您确实需要定期“更新”项目，而不仅仅是将 $push 和 $pull 项目添加到“toys”和“movies”数组，那么这将是避免嵌套更新问题的一种方法。

但这里的总体信息是围绕您实际使用的访问模式设计数据。MongoDB 通常不喜欢具有“严格路径”的东西，因为能够查询或以其他方式灵活地发布更新。

归档时间：	11 年，8 月前
查看次数：	4433 次
最近记录：	8 年，11 月前