小编use*_*498的帖子

Spark - 如何按键计算记录数

这可能是一个简单的问题,但基本上我有一个数据集,我可以计算每个国家的女性人数.最终我想按国家对每个计数进行分组,但我不确定该值的用途,因为数据集中没有可用作groupByKey或reduceByKey中的值的计数列.我想过使用reduceByKey()但是需要一个键值对,我只想计算键并将计数器作为值.我该怎么做?

val lines = sc.textFile("/home/cloudera/desktop/file.txt")
val split_lines = lines.map(_.split(","))
val femaleOnly = split_lines.filter(x => x._10 == "Female")
Run Code Online (Sandbox Code Playgroud)

这是我被困的地方.该国家/地区也是数据集中的索引13.输出应该是这样的:(澳大利亚,201000)(美国,420000)等任何帮助都会很棒.谢谢

cloud hadoop apache-spark

9
推荐指数
2
解决办法
4万
查看次数

简单来说,Spark是如何调度作业的?

只是想知道 Spark 如何安排作业?简单来说,我已经阅读了很多关于它是如何做到的描述,但它们太复杂而无法理解。

cloud apache-spark

2
推荐指数
1
解决办法
4838
查看次数

标签 统计

apache-spark ×2

cloud ×2

hadoop ×1