pyspark RDD countByKey() 如何计数？

Question

在发布这个问题之前，我搜索了社区并参考了 pyspark 文档，但我仍然无法理解它是如何计算的。

sc.parallelize((('1',11),('1'),('11'),('11',1))).countByKey().items()

输出：

dict_items([('1', 3), ('11', 1)])

我无法解释输出。为什么将“1”计数为 3，将“11”计数为 1？

Answer 1

当您调用时countByKey()，键将是传入的容器的第一个元素（通常是 a tuple），而值将是其余元素。

您可以认为执行在功能上大致等同于：

from operator import add

def myCountByKey(rdd):
    return rdd.map(lambda row: (row[0], 1)).reduceByKey(add)

该函数将您的每一行映射rdd到该行的第一个元素（键）和数字1作为值。最后，我们减少将每个键的值加在一起，以获得计数。

让我们在你的例子上试试这个：

rdd = sc.parallelize((('1',11),('1'),('11'),('11',1)))
myCountByKey(rdd).collect()
#[('1', 3), ('11', 1)]

“额外”'1'来自第三个元素('11')。将此行映射到(row[0], 1)yield ('1', 1)。在这种情况下，row[0]是字符串中的第一个字符。

您可能期望这表现得好像第三个元素是 tuple ('11',)。

rdd = sc.parallelize((('1',11),('1',),('11',),('11',1)))
rdd.countByKey().items()
#[('1', 2), ('11', 2)]

要点是，如果要指定没有值的键，则必须包含逗号。