Spark 工作负载是否需要 HDFS？

Question

HDFS 不是必需的，但在某些地方会出现建议。

为了帮助评估让 HDFS 运行所花费的努力：

将 HDFS 用于 Spark 工作负载有哪些好处？

Answer 1

the*_*ing -1

因此，您可以使用 Cloudera 或 Hortenworks 发行版并非常轻松地加载整个堆栈。CDH 将与 YARN 一起使用，尽管我发现在 CDH 中配置 mesos 要困难得多。Horten 更容易定制。

HDFS 之所以伟大，是因为数据节点 = 数据局部性（数据所在的进程），因为混洗/数据传输非常昂贵。HDFS 还自然地块文件，这允许 Spark 在块上进行分区。（128mb 块，您可以更改此值）。

您可以使用 S3 和 Redshift。