小编dmo*_*ort的帖子

pymongo:删除重复项(map reduce？)

我有一个包含多个集合的数据库(整体约15mil文档),文档看起来像这样(简化):

{'Text': 'blabla', 'ID': 101}
{'Text': 'Whuppppyyy', 'ID': 102}
{'Text': 'Abrakadabraaa', 'ID': 103}
{'Text': 'olalalaal', 'ID': 104}
{'Text': 'test1234545', 'ID': 104}
{'Text': 'whapwhapwhap', 'ID': 104}

Run Code Online (Sandbox Code Playgroud)

它们都有一个唯一的_id字段,但我想删除与另一个字段(外部ID字段)相对应的重复项.

首先,我尝试了一种非常手动的方法,然后使用列表和删除,但数据库看起来太大,需要很长时间并且不实用.

其次,以下版本不再适用于当前的MongoDB版本,即使有人提出建议.

db.collection.ensureIndex( { ID: 1 }, { unique: true, dropDups: true } )

Run Code Online (Sandbox Code Playgroud)

所以,现在我正在尝试创建一个map reduce解决方案,但我真的不知道我在做什么,特别是在使用另一个字段(不是数据库_id)来查找和删除重复项时遇到困难.这是我糟糕的第一种方法(从一些互联网来源采用):

map = Code("function(){ if(this.fieldName){emit(this.fieldName,1);}}")
reduce = Code("function(key,values) {return Array.sum(values);}")
res = coll.map_reduce(map,reduce,"my_results");

response = []
for doc in res.find():
    if(doc['value'] > 1):
        count = int(doc['value']) - 1
        docs = col.find({"fieldName":doc['ID']},{'ID':1}).limit(count)
        for i in docs:
            response.append(i['ID'])

coll.remove({"ID": {"$in": response}}) …

Run Code Online (Sandbox Code Playgroud)

python mongodb pymongo mongodb-query aggregation-framework

dmo*_*ort

2016 01-12

9
推荐指数

3
解决办法

4203
查看次数