小编Ram*_*ana的帖子

缓存和持久有什么区别?

RDD持久性方面,spark cache()persist()spark 之间有什么区别?

distributed-computing apache-spark rdd

197
推荐指数
6
解决办法
9万
查看次数

(为什么)我们需要在RDD上调用缓存或持久化

当从文本文件或集合(或从另一个RDD)创建弹性分布式数据集(RDD)时,我们是否需要显式调用"cache"或"persist"来将RDD数据存储到内存中?或者默认情况下RDD数据是以分布式方式存储在内存中的吗?

val textFile = sc.textFile("/user/emp.txt")
Run Code Online (Sandbox Code Playgroud)

根据我的理解,在上面的步骤之后,textFile是一个RDD,并且可以在节点的所有/部分内存中使用.

如果是这样,为什么我们需要在textFile RDD上调用"cache"或"persist"呢?

scala apache-spark rdd

161
推荐指数
5
解决办法
7万
查看次数

什么是广播变量?他们解决了什么问题?

我将通过Spark Programming指南说:

广播变量允许程序员在每台机器上保留一个只读变量,而不是随副本一起发送它的副本.

考虑到上述情况,广播变量的用例是什么?广播变量解决了什么问题?

当我们创建如下所示的任何广播变量时​​,变量引用,这里它broadcastVar可以在集群中的所有节点中使用吗?

val broadcastVar = sc.broadcast(Array(1, 2, 3))
Run Code Online (Sandbox Code Playgroud)

这些变量在节点的内存中可用多长时间?

apache-spark

25
推荐指数
1
解决办法
2万
查看次数

Hive外部表-CSV文件 - 标题行

下面是我创建的hive表:

CREATE EXTERNAL TABLE Activity (
  column1 type, </br>
  column2 type
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/exttable/';
Run Code Online (Sandbox Code Playgroud)

在我的HDFS位置/ exttable中,我有很多CSV文件,每个CSV文件也包含标题行.当我在进行选择查询时,结果也包含标题行.

在HIVE中我们可以忽略标题行或第一行吗?

hive

16
推荐指数
4
解决办法
5万
查看次数

聚类 - 稀疏向量和密集向量

对于群集,Mahout输入需要采用矢量形式.有两种类型的矢量实现.一个是稀疏矢量,另一个是密集矢量.

两者有什么区别?

稀疏和密集的使用场景?

mahout

7
推荐指数
1
解决办法
3220
查看次数

标签 统计

apache-spark ×3

rdd ×2

distributed-computing ×1

hive ×1

mahout ×1

scala ×1