drop_duplicates() 期间和之后的内存使用情况

isa*_*ing 5 python-2.7 pandas

我正在处理一个数据框，它占用大约 2 Gb 的内存（根据 htop），尺寸为 (6287475,19)。数据框的数据类型是异构的，这可能无关紧要。加载数据框后，我立即使用命令删除重复的行

df.drop_duplicates(inplace=True)

Run Code Online (Sandbox Code Playgroud)

在执行此命令期间，内存使用量跃升至约 7 Gb。命令完成后，内存减少到几乎 5 Gb，这是存储单个数据帧实例所需内存的两倍多。如果我然后删除del df内存使用量减少到大约 3 Gb的数据帧。

如果我执行以下操作，行为是相同的：

df2 = df.drop_duplicates
del df
del df2

Run Code Online (Sandbox Code Playgroud)

gc.collect()终止 python 会话后，运行什么也不做，内存使用率返回到其基线水平。这看起来像内存泄漏吗？有没有人见过类似的行为？

环境：

64位Linux
蟒蛇 2.7.7（64 位）
熊猫 0.14.1
麻木 1.8.2
Ipython 2.2.0（cpython 的行为相同）

归档时间：	11 年，6 月前
查看次数：	1220 次
最近记录：	11 年，6 月前

熊猫:如何对单个列使用apply()函数？ 207

如何重新采样具有应用于每列的不同功能的数据帧？ 30

构建多元回归模型会抛出错误:"Pandas数据转换为numpy dtype对象.使用np.asarray(data).`检查输入数据 17

如何更改Python日志记录中的时区？ 12

将 Pandas 数据帧写入 S3 存储桶 (AWS) 7

如何让窗口专注于Tkinter中的新Toplevel()窗口？ 6

Pandas str.contains 用于部分字符串的精确匹配 6

Python 101:无法打开文件:没有这样的文件或目录 6

在午夜以外的时间开始重新采样每日大熊猫时间序列 5

来自特定 ISO 格式的 Pandas 日期时间转换 5

PHP:从数组中删除元素 2362

在JavaScript中定义枚举的首选语法是什么？ 1982

如何使div不大于其内容？ 1960

npm package.json文件中依赖项,devDependencies和peerDependencies之间有什么区别？ 1872

如何基于通配符匹配以递归方式查找当前和子文件夹中的所有文件？ 1695

将浮点数限制为两个小数点 1527

如何自动调整图像大小以适合div容器 1394

确定数组是否包含值 1300

如何在Python中打印到stderr？ 1246

创建将T限制为枚举的通用方法 1122