在Python中分组并汇总字典列表的值

Question

在Python中分组并汇总字典列表的值

Kyl*_*ost 18 python dictionary python-itertools

我正在尝试以优雅的方式编写一个函数,它将对字典列表进行分组并聚合(求和)like-keys的值.

例:

my_dataset = [  
    {
        'date': datetime.date(2013, 1, 1),
        'id': 99,
        'value1': 10,
        'value2': 10
    },
    {
        'date': datetime.date(2013, 1, 1),
        'id': 98,
        'value1': 10,
        'value2': 10
    },
    {
        'date': datetime.date(2013, 1, 2),
        'id' 99,
        'value1': 10,
        'value2': 10
    }
]

group_and_sum_dataset(my_dataset, 'date', ['value1', 'value2'])

"""
Should return:
[
    {
        'date': datetime.date(2013, 1, 1),
        'value1': 20,
        'value2': 20
    },
    {
        'date': datetime.date(2013, 1, 2),
        'value1': 10,
        'value2': 10
    }
]
"""

Run Code Online (Sandbox Code Playgroud)

我已经尝试使用itertools为groupby和总结每个like-key值对,但我在这里遗漏了一些东西.这是我的功能目前的样子:

def group_and_sum_dataset(dataset, group_by_key, sum_value_keys):
    keyfunc = operator.itemgetter(group_by_key)
    dataset.sort(key=keyfunc)
    new_dataset = []
    for key, index in itertools.groupby(dataset, keyfunc):
        d = {group_by_key: key}
        d.update({k:sum([item[k] for item in index]) for k in sum_value_keys})
        new_dataset.append(d)
    return new_dataset

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ash*_*ary 22

你可以使用collections.Counter和collections.defaultdict.

使用dict可以完成O(N),而排序需要O(NlogN)时间.

from collections import defaultdict, Counter
def solve(dataset, group_by_key, sum_value_keys):
    dic = defaultdict(Counter)
    for item in dataset:
        key = item[group_by_key]
        vals = {k:item[k] for k in sum_value_keys}
        dic[key].update(vals)
    return dic
... 
>>> d = solve(my_dataset, 'date', ['value1', 'value2'])
>>> d
defaultdict(<class 'collections.Counter'>,
{
 datetime.date(2013, 1, 2): Counter({'value2': 10, 'value1': 10}),
 datetime.date(2013, 1, 1): Counter({'value2': 20, 'value1': 20})
})

Run Code Online (Sandbox Code Playgroud)

它的优点Counter是它会自动将相似键的值相加:

例:

>>> c = Counter(**{'value1': 10, 'value2': 5})
>>> c.update({'value1': 7, 'value2': 3})
>>> c
Counter({'value1': 17, 'value2': 8})

Run Code Online (Sandbox Code Playgroud)

这太棒了!你对2个领域的分组有什么想法吗？就像在那个例子中说你想按ID和日期分组？现在我的想法是将两个字段连接成一个,但它看起来并不优雅. (3认同)

Answer 2

Kyl*_*ost 5

谢谢，我忘了柜台。我仍然想保持输出格式和返回数据集的排序，所以这是我的最终函数：

def group_and_sum_dataset(dataset, group_by_key, sum_value_keys):

    container = defaultdict(Counter)

    for item in dataset:
        key = item[group_by_key]
        values = {k:item[k] for k in sum_value_keys}
        container[key].update(values)

    new_dataset = [
        dict([(group_by_key, item[0])] + item[1].items())
            for item in container.items()
    ]
    new_dataset.sort(key=lambda item: item[group_by_key])

    return new_dataset

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，5 月前
查看次数：	24483 次
最近记录：	7 年，6 月前