cassandra数据库上的Hadoop

Aas*_*tta 10 hadoop hive cassandra

我正在使用Cassandra存储我的数据和hive来处理我的数据.我有5台机器,我已经设置了cassandra和2台机器,我用作分析节点(hive运行的地方)所以我想问一下,hive是否只在两台机器(分析节点)上进行地图缩减并将数据带到那里或移动5个cassandra节点的进程/计算以及处理/计算这些机器上的数据.(我所知道的是hadoop,进程转移到数据而不是数据处理).

Dav*_*man 18

如果你有兴趣与Hadoop和Cassandra结婚 - 第一个链接应该是DataStax公司围绕这个概念建立的.http://www.datastax.com/ 他们构建并支持hadoop,HDFS替换为cassandra.据我所知 - 他们确实有数据位置:http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/

如果您针对cassandra Cassandra和MapReduce运行MapReduce,那么Hadoop和Cassandra数据位置就有很好的答案 - 最小的设置要求

关于您的问题 - 有一个交易:a)如果您在单独的节点上运行Hadoop/Hive,则会丢失数据位置,因此您的数据吞吐量受网络带宽的限制.
b)如果你在与cassandra运行相同的节点上运行hadoop/Hive - 你可以获得数据位置,但是hive查询后面的MapReduce处理可能会阻塞你的网络(和其他资源),从而影响你从cassandra的服务质量.

如果你的cassandra集群的性能至关重要,我的建议是拥有单独的配置单元节点.
如果您的cassandra主要用作数据存储并且不处理实时请求 - 那么在每个节点上运行配置单元将提高性能和硬件利用率.