使用 NumPy 从 Python 中的两个配对列表中平均重复值

Question

使用 NumPy 从 Python 中的两个配对列表中平均重复值

过去，我曾面临着处理两个配对列表的平均问题，并且我已经成功地使用了那里提供的答案。

然而，对于大型（超过 20,000 个）项目，该过程有点慢，我想知道使用 NumPy 是否会使其更快。

我从两个列表开始，一个是浮点数，一个是字符串：

names = ["a", "b", "b", "c", "d", "e", "e"]
values = [1.2, 4.5, 4.3, 2.0, 5.67, 8.08, 9.01]

Run Code Online (Sandbox Code Playgroud)

我正在尝试计算相同值的平均值，以便在应用后得到：

result_names = ["a", "b", "c", "d", "e"]
result_values = [1.2, 4.4, 2.0, 5.67, 8.54]

Run Code Online (Sandbox Code Playgroud)

我把两个列表作为结果示例，但也有一个(name, value)元组列表就足够了：

result = [("a", 1.2), ("b", 4.4), ("d", 5.67), ("e", 8.54)]

Run Code Online (Sandbox Code Playgroud)

使用 NumPy 执行此操作的最佳方法是什么？

Answer 1

jor*_*ris 4

使用numpy，您可以自己编写一些东西，或者您可以使用groupby功能（来自matplotlib.mlab的rec_groupby函数，但速度要慢得多。要获得更强大的groupby功能，也许看看pandas），我将它与Michael的答案进行了比较邓恩拿着字典：

import numpy as np
import random
from matplotlib.mlab import rec_groupby

listA = [random.choice("abcdef") for i in range(20000)]
listB = [20 * random.random() for i in range(20000)]

names = np.array(listA)
values = np.array(listB)

def f_dict(listA, listB):
    d = {}

    for a, b in zip(listA, listB):
        d.setdefault(a, []).append(b)

    avg = []
    for key in d:
        avg.append(sum(d[key])/len(d[key]))

    return d.keys(), avg

def f_numpy(names, values):
    result_names = np.unique(names)
    result_values = np.empty(result_names.shape)

    for i, name in enumerate(result_names):
        result_values[i] = np.mean(values[names == name])

    return result_names, result_values

Run Code Online (Sandbox Code Playgroud)

这是三者的结果：

In [2]: f_dict(listA, listB)
Out[2]: 
(['a', 'c', 'b', 'e', 'd', 'f'],
 [9.9003182717213765,
  10.077784850173568,
  9.8623915728699636,
  9.9790599744319319,
  9.8811096512807097,
  10.118695410115953])

In [3]: f_numpy(names, values)
Out[3]: 
(array(['a', 'b', 'c', 'd', 'e', 'f'], 
      dtype='|S1'),
 array([  9.90031827,   9.86239157,  10.07778485,   9.88110965,
         9.97905997,  10.11869541]))

In [7]: rec_groupby(struct_array, ('names',), (('values', np.mean, 'resvalues'),))
Out[7]: 
rec.array([('a', 9.900318271721376), ('b', 9.862391572869964),
       ('c', 10.077784850173568), ('d', 9.88110965128071),
       ('e', 9.979059974431932), ('f', 10.118695410115953)], 
      dtype=[('names', '|S1'), ('resvalues', '<f8')])

Run Code Online (Sandbox Code Playgroud)

看起来 numpy 对于这个测试要快一些（而预定义的 groupby 函数要慢得多）：

In [32]: %timeit f_dict(listA, listB)
10 loops, best of 3: 23 ms per loop

In [33]: %timeit f_numpy(names, values)
100 loops, best of 3: 9.78 ms per loop

In [8]: %timeit rec_groupby(struct_array, ('names',), (('values', np.mean, 'values'),))
1 loops, best of 3: 203 ms per loop

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，10 月前
查看次数：	2374 次
最近记录：	9 年，12 月前