小编Siv*_*aTP的帖子

在发布这个问题之前，我搜索了社区并参考了 pyspark 文档，但我仍然无法理解它是如何计算的。

sc.parallelize((('1',11),('1'),('11'),('11',1))).countByKey().items()

输出：

dict_items([('1', 3), ('11', 1)])

我无法解释输出。为什么将“1”计数为 3，将“11”计数为 1？

2
推荐指数

1
解决办法

4987
查看次数

rdd ×1

小编Siv_aTP的帖子