小编zoo*_*rew的帖子

我构建了一个测试集群，在运行节点工具状态时查看它，我将数据分布在四个节点之间，如下所示：

-- 地址加载代币拥有

联合国节点3 1.61 GB 1 14.6%
联合国节点2 3.14 GB 1 19.4%
联合国节点1 7.68 GB 1 63.9%
联合国节点4 5.85 GB 1 2.0%

现在，在我将数据提取到数据库之前，所有节点都已添加，但我认为我可能因为在将数据引入集群之前没有手动设置令牌信息而搞砸了。

我的问题是如何最好地重新调整以更均匀地分布数据？

1
推荐指数

1
解决办法

1095
查看次数

在我们当前的基础架构中,我们使用Cassandra集群作为我们的后端数据库,并且通过Solr,我们使用Web UI为客户在必要时对我们的数据库执行读取查询.

我被要求将Spark视为未来可以实现的东西,但我很难理解它将如何改进我们目前的工作.

所以我的基本问题是:

1)Spark是否会取代Solr来查询数据库,就像用户在我们的网站上查找内容一样？

2)只是一个总的想法,什么类型的基础设施将是必要的,以改善我们的现状(5个Cassandra节点,所有这些节点也运行Solr).换句话说,我们很容易看到构建另一个只有Spark节点的集群？

3)Spark节点可以在与Cassandra相同的物理机器上运行吗？我猜这是一个坏主意,因为内存限制因为我对Spark的基本理解是它在内存中做了所有事情.

4)我可以用什么好的快速/基本资源来开始弄清楚Spark如何让我们受益？我可以访问Datastax Academy课程,所以我正在阅读这些课程,只是想知道是否还有其他任何可以帮助我的研究.

基本上,一旦我弄清楚它是什么,更重要的是我们可以如何利用我们的优势,我将开始玩一些测试实例,但我应该首先熟悉基础知识.

0
推荐指数

1
解决办法

87
查看次数

小编zoo_rew的帖子