将整数数组转换为索引字典

Question

将整数数组转换为索引字典

我有一个（大）整数数组，如

materials = [0, 0, 47, 0, 2, 2, 47]  # ...

Run Code Online (Sandbox Code Playgroud)

几乎没有独特的条目，我想将其转换为索引字典，即，

d = {
    0: [0, 1, 3],
    2: [4, 5],
    47: [2, 6],
    }

Run Code Online (Sandbox Code Playgroud)

这样做的最有效方法是什么？（欢迎使用 NumPy。）

Answer 1

Nic*_*mer 1

另一句俏皮话，这次是numpy.where：

out = {v: np.where(v == a)[0] for v in numpy.unique(a)}

Run Code Online (Sandbox Code Playgroud)

（对于某些应用程序，布尔数组可能就足够了：

out = {v: v == a for v in numpy.unique(a)}

Run Code Online (Sandbox Code Playgroud)

）

请注意，这numpy.unique比大型数组要快set()，并且如果只有几个唯一条目，则速度要快很多。

无论如何，对于大多数数组大小，上面的方法是迄今为止最快的方法：

10 个不同的整数：

100 个不同的整数：

代码：

import numpy as np
from collections import defaultdict
import perfplot


def pp(a):
    index = np.argsort(a, kind='mergesort')
    as_ = a[index]
    jumps = np.r_[0, 1 + np.where(np.diff(as_) != 0)[0]]
    pp_out = {k: v for k, v in zip(as_[jumps], np.split(index, jumps[1:]))}
    return pp_out


def pp2(a):
    index = np.argsort(a)
    as_ = a[index]
    jumps = np.r_[0, 1 + np.where(np.diff(as_) != 0)[0]]
    pp_out = {k: np.sort(v)
              for k, v in zip(as_[jumps], np.split(index, jumps[1:]))}
    return pp_out


def Denziloe_JFFabre(a):
    df_out = {v: [i for i, x in enumerate(a) if x == v] for v in np.unique(a)}
    return df_out


def FCouzo(a):
    fc_out = defaultdict(list)
    for i, elem in enumerate(a):
        fc_out[elem].append(i)
    return fc_out


def KKSingh(a):
    kks_out = defaultdict(list)
    list(map(lambda x: kks_out[x[0]].append(x[1]), zip(a, range(len(a)))))
    return kks_out


def TMcDonaldJensen(a):
    mdj_out = defaultdict(list)
    for i, elem in enumerate(a):
        mdj_out[elem].append(i)
    return mdj_out


def RomanPerekhrest(a):
    rp_out = {}
    for k, m in enumerate(a):
        rp_out.setdefault(m, []).append(k)
    return rp_out


def SchloemerHist(a):
    np.histogram(a, bins=np.arange(min(a), max(a)+2))
    return


def SchloemerWhere(a):
    out = {v: np.where(v == a)[0] for v in np.unique(a)}
    return out


def SchloemerBooleanOnly(a):
    out = {v: v == a for v in np.unique(a)}
    return out


perfplot.show(
        setup=lambda n: np.random.randint(0, 100, n),
        kernels=[
            pp, pp2, Denziloe_JFFabre, FCouzo, KKSingh,
            TMcDonaldJensen, RomanPerekhrest, SchloemerHist, SchloemerWhere,
            SchloemerBooleanOnly
            ],
        n_range=[2**k for k in range(17)],
        xlabel='len(a)',
        logx=True,
        logy=True,
        )

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，10 月前
查看次数：	439 次
最近记录：	8 年，10 月前