在R中绘制巨大的数据文件?

Sam*_*Sam 8 r ggplot2

我有一个大约有2000万行的输入文件.文件的大小约为1.2 G.无论如何,我可以在R中绘制数据.有些列有类别,大多数是数字.

我已经尝试了我的绘图脚本,输入文件的一小部分大约800K行,但即使我有大约8G的RAM,我似乎无法绘制所有数据.有没有简单的方法来做到这一点.

Pau*_*tra 13

如果没有更清楚地描述你想要的那种情节,很难给出具体的建议.但是,一般情况下,无需在绘图中绘制2000万个点.例如,时间序列可以通过样条拟合或某种平均值来表示,例如,每小时平均数据的总小时数据.或者,您绘制一些数据子集,例如,时间序列示例中每天只有一个点.所以我认为你的挑战并不是在情节上获得20M点,甚至800k,而是如何有效地聚合你的数据,以便传达你想要告诉的信息.

  • 对数据进行采样并重复几次过程也会显示隐藏在数据中的模式. (3认同)

Kar*_*ikS 5

按照 Ben Bolker 在大型数据集的加速绘图()函数中建议的那样,用于绘制 hexbins 而不是变量对散点图的 hexbin 包对我来说在 4GB RAM 下可以处理 200 万条记录。但对于同一组变量的 2 亿条记录/行,它失败了。我尝试减小 bin 大小来调整计算时间与 RAM 使用情况,但没有帮助。

对于 2000 万条记录,您可以首先尝试使用 xbins = 20,30,40 的 hexbins。