ale*_*eri 5 python memory pydev pandas
我想知道是否有一种方法或 Python 包可以让我使用大型数据集而无需将其写入 RAM。
我还使用 pandas 进行统计功能。
我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可信的结果。
我在 Windows 10 的 LiClipse 上使用 PyDev(带有解释器 Python 3.4)。
Ser*_*Dev 3
您可以选择使用Sframes、Dask来支持大型数据集,或者使用 pandas 并分块读取/迭代,以最大限度地减少 RAM 使用。还值得一看blaze图书馆
分块读取:
chunksize = 10 ** 6 for chunk in pd.read_csv(filename, chunksize=chunksize): process(chunk)
归档时间:
9 年,6 月 前
查看次数:
7434 次
最近记录: