我发现,当您将大量数据集与同一列的大量列合并时,与 Pandas 库的直接链合并效率非常低。
问题的根源和我们加入很多str的愚蠢方式是一样的:
joined = reduce(lambda a + b, str_list)
Run Code Online (Sandbox Code Playgroud)
代替:
joined = ''.join(str_list)
Run Code Online (Sandbox Code Playgroud)
在进行链合并时,我们多次复制数据集(在我的情况下几乎是 100 次),而不是一次或按顺序填充来自多个数据集的列。
是否有一些有效的方法(= 具有线性复杂度的集合)通过同一列链接合并大量数据集?