我有一个大约有2000万行的输入文件.文件的大小约为1.2 G.无论如何,我可以在R中绘制数据.有些列有类别,大多数是数字.
我已经尝试了我的绘图脚本,输入文件的一小部分大约800K行,但即使我有大约8G的RAM,我似乎无法绘制所有数据.有没有简单的方法来做到这一点.
Pau*_*tra 13
如果没有更清楚地描述你想要的那种情节,很难给出具体的建议.但是,一般情况下,无需在绘图中绘制2000万个点.例如,时间序列可以通过样条拟合或某种平均值来表示,例如,每小时平均数据的总小时数据.或者,您绘制一些数据子集,例如,时间序列示例中每天只有一个点.所以我认为你的挑战并不是在情节上获得20M点,甚至800k,而是如何有效地聚合你的数据,以便传达你想要告诉的信息.
按照 Ben Bolker 在大型数据集的加速绘图()函数中建议的那样,用于绘制 hexbins 而不是变量对散点图的 hexbin 包对我来说在 4GB RAM 下可以处理 200 万条记录。但对于同一组变量的 2 亿条记录/行,它失败了。我尝试减小 bin 大小来调整计算时间与 RAM 使用情况,但没有帮助。
对于 2000 万条记录,您可以首先尝试使用 xbins = 20,30,40 的 hexbins。
| 归档时间: |
|
| 查看次数: |
6638 次 |
| 最近记录: |