Zah*_*I.S 7 sample apache-spark spark-dataframe
我想从数据框中随机选择一些行,我知道样本方法可以做到这一点,但我担心我的随机性应该是统一采样吗?那么,我想知道Spark on Dataframes的示例方法是否统一?
谢谢
Jus*_*ony 13
这里有一些代码路径:
withReplacement = false && fraction > .4
那时它使用了一个加强的随机数生成器(rng.nextDouble() <= fraction
)并让它完成工作.这看起来很均匀.withReplacement = false && fraction <= .4
那时它使用更复杂的算法(GapSamplingIterator
),看起来也很均匀.一目了然,它看起来也应该是统一的withReplacement = true
它确实接近相同的东西,除了它可以复制它的外观,所以这看起来像它不会像前两个一样统一 归档时间: |
|
查看次数: |
3177 次 |
最近记录: |