小编Edw*_*Guo的帖子

Spark的任务是什么？Spark工作人员如何执行jar文件？

在http://spark.apache.org/docs/0.8.0/cluster-overview.html上阅读了一些文档后,我得到了一些我想澄清的问题.

以Spark为例:

JavaSparkContext spark = new JavaSparkContext(
  new SparkConf().setJars("...").setSparkHome....);
JavaRDD<String> file = spark.textFile("hdfs://...");

// step1
JavaRDD<String> words =
  file.flatMap(new FlatMapFunction<String, String>() {
    public Iterable<String> call(String s) {
      return Arrays.asList(s.split(" "));
    }
  });

// step2
JavaPairRDD<String, Integer> pairs =
  words.map(new PairFunction<String, String, Integer>() {
    public Tuple2<String, Integer> call(String s) {
      return new Tuple2<String, Integer>(s, 1);
    }
  });

// step3
JavaPairRDD<String, Integer> counts =
  pairs.reduceByKey(new Function2<Integer, Integer>() {
    public Integer call(Integer a, Integer b) {
      return a + b;
    } …

Run Code Online (Sandbox Code Playgroud)

distributed-computing apache-spark

Edw*_*Guo

2016 08-21

43
推荐指数

2
解决办法

2万
查看次数

Spark聚合函数如何 - aggregateByKey有效吗？

假设我在3个节点上有一个分发系统,我的数据分布在这些节点中.例如,我有一个test.csv文件,它存在于所有3个节点上,它包含2列:

**row   | id,  c.**
---------------
row1  | k1 , c1  
row2  | k1 , c2  
row3  | k1 , c3  
row4  | k2 , c4  
row5  | k2 , c5  
row6  | k2 , c6  
row7  | k3 , c7  
row8  | k3 , c8  
row9  | k3 , c9  
row10 | k4 , c10   
row11 | k4 , c11  
row12 | k4 , c12

Run Code Online (Sandbox Code Playgroud)

然后我使用SparkContext.textFile将文件读出为rdd等等.据我所知,每个spark worker节点都会读取文件中的一部分.所以现在让我们说每个节点都会存储:

节点1:行1~4
节点2:第5~8行
节点3:第9~12行

我的问题是,假设我想对这些数据进行计算,我需要将一个键组合在一起,因此键值对将是[k1 [{k1 c1} {k1 c2} {k1 c3}]]..等等. …

distributed-computing apache-spark

Edw*_*Guo

2016 02-14

40
推荐指数

2
解决办法

5万
查看次数

Spark RDD缓存会走多远？

假设我在rdd1上调用了三个RDD转换函数:

def rdd2 = rdd1.f1
def rdd3 = rdd2.f2
def rdd4 = rdd3.f3

Run Code Online (Sandbox Code Playgroud)

现在我想缓存rdd4,所以我打电话rdd4.cache().

我的问题:

只有rdd4缓存操作的结果或者上面的每个RDD都会rdd4被缓存吗？说我要同时缓存rdd3和rdd4,我需要分别缓存它们？

distributed-computing apache-spark

Edw*_*Guo

2016 08-24

13
推荐指数

1
解决办法

6229
查看次数

在 spark 中，参数“minPartitions”在 SparkContext.textFile(path, minPartitions) 中有什么作用？

在 Spark 中，无论是 SparkContext 还是 JavaSparkContext，调用 sc.textFile 时都有一个参数是 minPartitions。这个参数是什么意思？

apache-spark

Edw*_*Guo

2014 07-22

6
推荐指数

1
解决办法

5420
查看次数

标签统计

apache-spark ×4

distributed-computing ×3

Spark的任务是什么？Spark工作人员如何执行jar文件？

Spark聚合函数如何 - aggregateByKey有效吗？

Spark RDD缓存会走多远？

在 spark 中，参数“minPartitions”在 SparkContext.textFile(path, minPartitions) 中有什么作用？

标签 统计

小编Edw_Guo的帖子

标签统计