小编Edw*_*Guo的帖子

Spark的任务是什么?Spark工作人员如何执行jar文件?

http://spark.apache.org/docs/0.8.0/cluster-overview.html上阅读了一些文档后,我得到了一些我想澄清的问题.

以Spark为例:

JavaSparkContext spark = new JavaSparkContext(
  new SparkConf().setJars("...").setSparkHome....);
JavaRDD<String> file = spark.textFile("hdfs://...");

// step1
JavaRDD<String> words =
  file.flatMap(new FlatMapFunction<String, String>() {
    public Iterable<String> call(String s) {
      return Arrays.asList(s.split(" "));
    }
  });

// step2
JavaPairRDD<String, Integer> pairs =
  words.map(new PairFunction<String, String, Integer>() {
    public Tuple2<String, Integer> call(String s) {
      return new Tuple2<String, Integer>(s, 1);
    }
  });

// step3
JavaPairRDD<String, Integer> counts =
  pairs.reduceByKey(new Function2<Integer, Integer>() {
    public Integer call(Integer a, Integer b) {
      return a + b;
    } …
Run Code Online (Sandbox Code Playgroud)

distributed-computing apache-spark

43
推荐指数
2
解决办法
2万
查看次数

Spark聚合函数如何 - aggregateByKey有效吗?

假设我在3个节点上有一个分发系统,我的数据分布在这些节点中.例如,我有一个test.csv文件,它存在于所有3个节点上,它包含2列:

**row   | id,  c.**
---------------
row1  | k1 , c1  
row2  | k1 , c2  
row3  | k1 , c3  
row4  | k2 , c4  
row5  | k2 , c5  
row6  | k2 , c6  
row7  | k3 , c7  
row8  | k3 , c8  
row9  | k3 , c9  
row10 | k4 , c10   
row11 | k4 , c11  
row12 | k4 , c12 
Run Code Online (Sandbox Code Playgroud)

然后我使用SparkContext.textFile将文件读出为rdd等等.据我所知,每个spark worker节点都会读取文件中的一部分.所以现在让我们说每个节点都会存储:

  • 节点1:行1~4
  • 节点2:第5~8行
  • 节点3:第9~12行

我的问题是,假设我想对这些数据进行计算,我需要将一个键组合在一起,因此键值对将是[k1 [{k1 c1} {k1 c2} {k1 c3}]]..等等. …

distributed-computing apache-spark

40
推荐指数
2
解决办法
5万
查看次数

Spark RDD缓存会走多远?

假设我在rdd1上调用了三个RDD转换函数:

def rdd2 = rdd1.f1
def rdd3 = rdd2.f2
def rdd4 = rdd3.f3
Run Code Online (Sandbox Code Playgroud)

现在我想缓存rdd4,所以我打电话rdd4.cache().

我的问题:

只有rdd4缓存操作的结果或者上面的每个RDD都会rdd4被缓存吗?说我要同时缓存rdd3rdd4,我需要分别缓存它们?

distributed-computing apache-spark

13
推荐指数
1
解决办法
6229
查看次数

在 spark 中,参数“minPartitions”在 SparkContext.textFile(path, minPartitions) 中有什么作用?

在 Spark 中,无论是 SparkContext 还是 JavaSparkContext,调用 sc.textFile 时都有一个参数是 minPartitions。这个参数是什么意思?

apache-spark

6
推荐指数
1
解决办法
5420
查看次数