在 Python 中使用硬盘代替 RAM

ale*_*eri 5 python memory pydev pandas

我想知道是否有一种方法或 Python 包可以让我使用大型数据集而无需将其写入 RAM。

我还使用 pandas 进行统计功能。

我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可信的结果。

我在 Windows 10 的 LiClipse 上使用 PyDev(带有解释器 Python 3.4)。

Ser*_*Dev 3

您可以选择使用SframesDask来支持大型数据集,或者使用 pandas 并分块读取/迭代,以最大限度地减少 RAM 使用。还值得一看blaze图书馆

分块读取:

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
Run Code Online (Sandbox Code Playgroud)