只绘制一个点的子集?

Leg*_*end 4 r ggplot2

我正在尝试使用ggplot绘制包含大约2900万个值的大型数据集的CDF曲线.我计算它的方式是这样的:

mycounts = ddply(idata.frame(newdata), .(Type), transform, ecd = ecdf(Value)(Value))
plot = ggplot(mycounts, aes(x=Value, y=ecd))
Run Code Online (Sandbox Code Playgroud)

这需要很长时间才能绘制.我想知道是否有一种干净的方法只绘制该数据集的样本(例如,每10点或50点)而不影响实际结果?

dar*_*zig 5

我不确定您的数据结构,但简单的sample调用可能就足够了:

n <- nrow(mycounts)                              # number of cases in data frame
mycounts <- mycounts[sample(n, round(n/10)), ]   # get an n/10 sample to the same data frame
Run Code Online (Sandbox Code Playgroud)