use*_*997 3 apache-spark spark-streaming
有人可以解释一下 RDD countApprox() 与 count()之间的区别吗?如果可能的话,可以回答哪个最快?我们有一个要求,其中count() 非常慢,需要大约 30 分钟 ** ...尝试过 countApprox() **第一次运行速度很快(**大约 1.2 分钟),然后减慢到30分钟.....
这就是我们如何使用它不确定它是否是最好的使用方式
rdd.countApprox(timeout=800, confidence=0.5)
Run Code Online (Sandbox Code Playgroud)
countApprox(timeout: Long, confidence: Double)
默认值:置信度 = 0.95
注意:根据 spark 源代码,对 countApprox 的支持标记为“实验性”。
使用 timeout=800,您应该已经看到 <1 分钟内的近似计数。
您确定没有其他原因导致 30 分钟的延迟。分享您的代码/代码片段以从其他成员那里获得更准确的输入。
| 归档时间: |
|
| 查看次数: |
5194 次 |
| 最近记录: |