当我在Spark-Shell中运行一些Apache Spark示例或作为一项工作时,我无法在一台机器上实现完全核心利用率.例如:
var textColumn = sc.textFile("/home/someuser/largefile.txt").cache()
var distinctWordCount = textColumn.flatMap(line => line.split('\0'))
.map(word => (word, 1))
.reduceByKey(_+_)
.count()
Run Code Online (Sandbox Code Playgroud)
运行此脚本时,我通常只在我的8核计算机上看到1个或2个活动核心.Spark不应该和它并行吗?