我正在尝试本教程http://spark.apache.org/docs/latest/quick-start.html 我首先从文件创建了一个集合
textFile = sc.textFile("README.md")
Run Code Online (Sandbox Code Playgroud)
然后我尝试了一个命令来解决这些问题:
wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
Run Code Online (Sandbox Code Playgroud)
要打印集合:
wordCounts.collect()
Run Code Online (Sandbox Code Playgroud)
我找到了如何使用命令sortByKey逐字排序.我想知道如何通过值进行排序可以做同样的事情,在这种情况下,文档中出现一个单词的数字.