use*_*256 7 count pyspark spark-dataframe
关于 Spark 计算不一致的问题。这存在吗?例如,我两次运行完全相同的命令,例如:
imp_sample.where(col("location").isNotNull()).count()
Run Code Online (Sandbox Code Playgroud)
每次运行时我都会得到略有不同的结果(141,830,然后是 142,314)!或这个:
imp_sample.where(col("location").isNull()).count()
Run Code Online (Sandbox Code Playgroud)
得到 2,587,013,然后是 2,586,943。怎么可能?谢谢!
根据您的评论,您正在sampleBy管道中使用。sampleBy不保证您会获得行的精确分数。它采用的样本中包含的每条记录的概率等于分数,并且每次运行可能会有所不同。
关于monotonically_increasing_id评论中的问题,它只保证下一个id大于前一个id,但是,它不保证id是连续的(i,i+i,i+2,等等...)。
最后,您可以通过调用 persist() 来持久保存数据帧。
| 归档时间: |
|
| 查看次数: |
2508 次 |
| 最近记录: |