SPARK是Dataframes统一采样的样本方法吗?

Zah*_*I.S 7 sample apache-spark spark-dataframe

我想从数据框中随机选择一些行,我知道样本方法可以做到这一点,但我担心我的随机性应该是统一采样吗?那么,我想知道Spark on Dataframes的示例方法是否统一?

谢谢

Jus*_*ony 13

这里有一些代码路径:

  • 如果withReplacement = false && fraction > .4那时它使用了一个加强的随机数生成器(rng.nextDouble() <= fraction)并让它完成工作.这看起来很均匀.
  • 如果withReplacement = false && fraction <= .4那时它使用更复杂的算法(GapSamplingIterator),看起来也很均匀.一目了然,它看起来也应该是统一的
  • 如果withReplacement = true它确实接近相同的东西,除了它可以复制它的外观,所以这看起来像它不会像前两个一样统一