BAR*_*BAR 5 hadoop hdfs mesos apache-spark mesosphere
HDFS 不是必需的,但在某些地方会出现建议。
为了帮助评估让 HDFS 运行所花费的努力:
将 HDFS 用于 Spark 工作负载有哪些好处?
the*_*ing -1
因此,您可以使用 Cloudera 或 Hortenworks 发行版并非常轻松地加载整个堆栈。CDH 将与 YARN 一起使用,尽管我发现在 CDH 中配置 mesos 要困难得多。Horten 更容易定制。
HDFS 之所以伟大,是因为数据节点 = 数据局部性(数据所在的进程),因为混洗/数据传输非常昂贵。HDFS 还自然地块文件,这允许 Spark 在块上进行分区。(128mb 块,您可以更改此值)。
您可以使用 S3 和 Redshift。
请参阅此处: https: //github.com/databricks/spark-redshift
| 归档时间: |
|
| 查看次数: |
2137 次 |
| 最近记录: |