Spark 工作负载是否需要 HDFS?

BAR*_*BAR 5 hadoop hdfs mesos apache-spark mesosphere

HDFS 不是必需的,但在某些地方会出现建议。

为了帮助评估让 HDFS 运行所花费的努力:

将 HDFS 用于 Spark 工作负载有哪些好处?

the*_*ing -1

因此,您可以使用 Cloudera 或 Hortenworks 发行版并非常轻松地加载整个堆栈。CDH 将与 YARN 一起使用,尽管我发现在 CDH 中配置 mesos 要困难得多。Horten 更容易定制。

HDFS 之所以伟大,是因为数据节点 = 数据局部性(数据所在的进程),因为混洗/数据传输非常昂贵。HDFS 还自然地块文件,这允许 Spark 在块上进行分区。(128mb 块,您可以更改此值)。

您可以使用 S3 和 Redshift。

请参阅此处: https: //github.com/databricks/spark-redshift