小编Pet*_*ers的帖子

在 Pandas 中合并数据帧块

我目前有一个脚本,可以将多个 csv 文件合并为一个,该脚本工作正常,只是当开始使用较大的文件时,我们会很快用完 ram。这是一个问题,原因之一是脚本在 AWS 服务器上运行,内存不足意味着服务器崩溃。目前,每个文件大小限制约为 250 mb,这将我们限制为 2 个文件,但是由于我工作的公司在生物技术,我们使用的是基因测序文件,我们使用的文件大小范围从 17 mb 到大约 700 mb取决于实验。我的想法是将一个数据帧整体加载到内存中,然后将其他数据帧分块并迭代组合,但效果不佳。

我的数据框与此类似(它们的大小可能不同,但有些列保持不变;“Mod”、“AA”和“Nuc”)

+-----+-----+-----+-----+-----+-----+-----+-----+
| Mod | Nuc | AA  | 1_1 | 1_2 | 1_3 | 1_4 | 1_5 |
+-----+-----+-----+-----+-----+-----+-----+-----+
| 000 | ABC | ABC | 10  | 5   | 9   | 16  | 8   |
+-----+-----+-----+-----+-----+-----+-----+-----+
| 010 | CBA | CBA | 0   | 1   | 4   | 9   | 0   |
+-----+-----+-----+-----+-----+-----+-----+-----+
Run Code Online (Sandbox Code Playgroud)

当组合两个框架时,我需要它们在“Mod”、“Nuc”和“AA”上合并,以便我有类似的东西

+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+
| Mod | Nuc | AA  | …
Run Code Online (Sandbox Code Playgroud)

python merge dataframe pandas

5
推荐指数
1
解决办法
3751
查看次数

标签 统计

dataframe ×1

merge ×1

pandas ×1

python ×1