通过字典有效地替换pandas系列中的值

jpp*_*jpp 11 python dictionary dataframe python-3.x pandas

如何s通过字典替换Pandas系列中的值d已被多次询问和重新询问.

推荐的方法(1,2,3,4)是要么使用s.replace(d),有时也使用s.map(d)如果所有的系列值是在字典键找到.

但是,使用性能s.replace通常非常慢,通常比简单的列表理解慢5-10倍.

替代方案,s.map(d)具有良好的性能,但仅在词典中找到所有键时才建议使用.

为什么s.replace这么慢,如何提高性能?

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit [d.get(i, i) for i in lst]                  # 243ms
Run Code Online (Sandbox Code Playgroud)

注意:此问题未标记为重复,因为它正在寻找有关何时使用给定不同数据集的不同方法的具体建议.这在答案中是明确的,并且是在其他问题中通常不涉及的方面.

jpp*_*jpp 20

一个简单的解决方案是选择一种方法,该方法取决于字典键覆盖完整值的估计.

一般情况

  • 使用df['A'].map(d)如果所有值映射; 要么
  • 使用df['A'].map(d).fillna(df['A']).astype(int)if> 5%值映射.

d中的值很少,例如<5%

  • 使用 df['A'].replace(d)

约5%的"交叉点"特定于下面的基准测试.

有趣的是,map在任一场景中,简单的列表理解通常都表现不佳.

标杆

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 - Full Map #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit df['A'].map(d)                              # 84.3ms
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 - Partial Map #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int)  # 111ms
%timeit [d.get(i, i) for i in lst]                  # 243ms
Run Code Online (Sandbox Code Playgroud)

说明

之所以s.replace如此缓慢,原因在于它不仅仅是简单地映射字典.它涉及一些边缘情况和可以说是罕见的情况,在任何情况下通常都值得关注.

这是一个摘录replace()pandas\generic.py.

items = list(compat.iteritems(to_replace))
keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]

if any(are_mappings):
    # handling of nested dictionaries
else:
    to_replace, value = keys, values

return self.replace(to_replace, value, inplace=inplace,
                    limit=limit, regex=regex)
Run Code Online (Sandbox Code Playgroud)

似乎涉及许多步骤:

  • 将字典转换为列表.
  • 迭代列表并检查嵌套字典.
  • 将键和值的迭代器提供给替换函数.

这可与从更为精简的代码map()pandas\series.py:

if isinstance(arg, (dict, Series)):
    if isinstance(arg, dict):
        arg = self._constructor(arg, index=arg.keys())

    indexer = arg.index.get_indexer(values)
    new_values = algos.take_1d(arg._values, indexer)
Run Code Online (Sandbox Code Playgroud)