有没有一种方法可以使用map和reduce来计算RDD每一行的单词出现次数,而不是完整的RDD?
例如,如果 RDD[String] 包含以下两行:
让我们玩得开心吧。 为了获得乐趣,您不需要任何计划。
让我们玩得开心吧。
为了获得乐趣,您不需要任何计划。
那么输出应该类似于包含键值对的映射:
(“让我们”,1) (“有”,1) (“一些”,1) (“有趣”,1) (“到”,1) (“有”,1) (“乐趣”,1) (“你”,1) (“不”,1) (“需要”,1) (“计划”,1 )
(“让我们”,1) (“有”,1) (“一些”,1) (“有趣”,1)
(“到”,1) (“有”,1) (“乐趣”,1) (“你”,1) (“不”,1) (“需要”,1) (“计划”,1 )
scala apache-spark
apache-spark ×1
scala ×1