小编Siv*_*aTP的帖子

pyspark RDD countByKey() 如何计数?

在发布这个问题之前,我搜索了社区并参考了 pyspark 文档,但我仍然无法理解它是如何计算的。

sc.parallelize((('1',11),('1'),('11'),('11',1))).countByKey().items() 
Run Code Online (Sandbox Code Playgroud)

输出:

dict_items([('1', 3), ('11', 1)])
Run Code Online (Sandbox Code Playgroud)

我无法解释输出。为什么将“1”计数为 3,将“11”计数为 1?

python apache-spark rdd pyspark

2
推荐指数
1
解决办法
4987
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1

rdd ×1