相关疑难解决方法(0)

是否缓存了地图减少火花的唯一优势？

我已经开始学习Apache Spark,并对框架印象深刻.虽然一件事一直困扰我的是,在所有Spark介绍他们谈论如何星火缓存需要相同的数据比其他方法,如地图,减少快RDDS,因此多个操作.

所以我的问题是,如果是这种情况,那么只需在Yarn/Hadoop等MR框架中添加一个缓存引擎.

为什么要一起创建一个新框架？

我相信我在这里遗漏了一些东西,你可以给我一些文件,让我更多地了解火花.

caching hadoop apache-spark

Kno*_*uch

2014 07-12

16
推荐指数

3
解决办法

4570
查看次数

Hive比Spark快吗？

阅读了什么是配置单元之后，它是数据库吗？，一位同事昨天提到，他能够在进行“分组依据”后过滤一个15B表，并将其与另一个表联接，仅10分钟就产生了6B条记录！我想知道这在Spark中是否会更慢，因为现在与DataFrames相比，它们是否具有可比性，但我不确定，因此是问题所在。

Hive比Spark快吗？还是这个问题没有意义？对不起，我的无知。

他使用的是最新的Hive，这似乎是在使用Tez。

hadoop hive bigdata apache-spark apache-tez

gsa*_*ras

2017 09-23

5
推荐指数

1
解决办法

3931
查看次数

Spark内部是否使用Map-Reduce？

Spark内部使用MapReduce吗？（自己的地图缩小）

当我第一次听到有人告诉我“Spark 使用 Map-Reduce”时，我很困惑，我总是知道 Spark 是 Hadoop Map-Reduce 的替代品。

在我检查谷歌后，我发现一个网站对此做了一些太简短的解释： https: //dzone.com/articles/how-does-spark-use-mapreduce

但互联网的其余部分仅比较 Spark 和 Map-Reduce。

然后有人向我解释说，当 Spark 创建 RDD 时，数据会分割到不同的数据集中，如果您使用例如 SPAR.SQL 的查询，则不应是映射缩减，例如：

select student 
from Table_students 
where name = "Enrique"

Run Code Online (Sandbox Code Playgroud)

Spark 内部正在执行映射缩减来检索数据（来自不同的数据集）。

这是真的？

如果我使用 Spark Mlib 来使用机器学习，我总是听说机器学习与 MapReduce 不兼容，因为它需要很多交互，而 MapReduce 使用批处理。

在Spark Mlib中，Spark内部也使用Map reduce吗？

mapreduce apache-spark rdd apache-spark-sql

Enr*_*ado

2024 01-23

2
推荐指数

1
解决办法

6009
查看次数

标签统计

apache-spark ×3

hadoop ×2

apache-spark-sql ×1

apache-tez ×1

bigdata ×1

caching ×1

hive ×1

mapreduce ×1

rdd ×1

是否缓存了地图减少火花的唯一优势？

Hive比Spark快吗？

Spark内部是否使用Map-Reduce？

标签 统计

标签统计