Cassandra/HDFS和Spark中的数据运动

use*_*018 2 hadoop distributed-computing cassandra hdfs apache-spark

在设计分布式存储和分析架构时,在与数据节点相同的机器上运行分析引擎是否是一种常见的使用模式?具体来说,直接在Cassandra/HDFS节点上运行Spark/Storm是否有意义?

我知道HDFS上的MapReduce具有这种使用模式,因为根据Hortonworks,YARN最小化了数据运动.我不知道这些其他系统是否就是这种情况.我想这是因为它们似乎彼此可插拔,但我似乎无法在网上找到任何关于此的信息.

我是这个主题的新手,所以任何资源或答案都将非常感激.

谢谢

Jim*_*yer 6

是的,在Cassandra节点上运行Spark以最小化机器之间的数据移动是有意义的.

从Cassandra表创建RDD时,将从每台计算机本地的令牌范围创建RDD分区.

以下是Spark Cassandra连接器关于此主题的演讲的链接:

Cassandra和Spark:优化数据位置

正如摘要中所述:"在分布式数据库上进行分析时,只有三件事是重要的:地点,地点和地点."