运行计数命令时引发不一致

Question

关于 Spark 计算不一致的问题。这存在吗？例如，我两次运行完全相同的命令，例如：

imp_sample.where(col("location").isNotNull()).count()

每次运行时我都会得到略有不同的结果（141,830，然后是 142,314）！或这个：

imp_sample.where(col("location").isNull()).count()

得到 2,587,013，然后是 2,586,943。怎么可能？谢谢！

Answer 1

根据您的评论，您正在sampleBy管道中使用。sampleBy不保证您会获得行的精确分数。它采用的样本中包含的每条记录的概率等于分数，并且每次运行可能会有所不同。

关于monotonically_increasing_id评论中的问题，它只保证下一个id大于前一个id，但是，它不保证id是连续的（i，i+i，i+2，等等...）。

最后，您可以通过调用 persist() 来持久保存数据帧。