小编mor*_*rph的帖子

熊猫中的高效链合并

我发现,当您将大量数据集与同一列的大量列合并时,与 Pandas 库的直接链合并效率非常低。

问题的根源和我们加入很多str的愚蠢方式是一样的:

joined = reduce(lambda a + b, str_list)
Run Code Online (Sandbox Code Playgroud)

代替:

joined = ''.join(str_list)
Run Code Online (Sandbox Code Playgroud)

在进行链合并时,我们多次复制数据集(在我的情况下几乎是 100 次),而不是一次或按顺序填充来自多个数据集的列。

是否有一些有效的方法(= 具有线性复杂度的集合)通过同一列链接合并大量数据集?

python merge pandas

5
推荐指数
1
解决办法
3947
查看次数

标签 统计

merge ×1

pandas ×1

python ×1