在Cassandra中建立一对多关系的最佳方法是什么?

Lee*_*ren 3 composite-key one-to-many cassandra nosql

假设我要设计一个系统,用户可以在其中创建帖子,每个帖子都属于一个用户,但一个用户可能有多个帖子。还假设除了要简单地通过postId查找帖子外,我还希望支持查找具有给定userID的所有帖子。我还想存储用户特定的帐户详细信息,例如帐户创建日期。

一种建模方法如下:

CREATE TABLE user (
   userId int,
   name varchar,
   userDetail1,
   userDetail2,
   ...,
   PRIMARY KEY(userId)
);

CREATE TABLE post (
   postId int,
   postDetail1,
   postDetail2,
   ...,
   userId int,
   PRIMARY KEY(postId)
);
Run Code Online (Sandbox Code Playgroud)

据我所读,这不是最佳方法,因为查询特定用户发表的帖子会导致内存效率低下。它是否正确?这是Cassandra不支持在userId上索引发布表的原因吗?

那么理想的解决方案如下吗?

CREATE TABLE user (
   userId int,
   name varchar,
   userDetail1,
   userDetail2,
   ...,
   PRIMARY KEY(userId)
);

CREATE TABLE post (
   postId int,
   postDetail1,
   postDetail2,
   ...,
   userId int,
   PRIMARY KEY(postId)
);

CREATE TABLE user_to_post (
   userId int,
   postId int,
   userDetail1,
   userDetail2,
   ...,
   postDetail1,
   postDetail2,
   ...,
   PRIMARY KEY(userId, postId)
);
Run Code Online (Sandbox Code Playgroud)

使用组合键,查询特定用户的帖子效率更高。但是,采用这种设计,专门为发帖设置表格是否多余?同样,在这种设计中,我希望查找特定用户发布的帖子,并且还希望快速链接到给定帖子的特定用户。我已经读了很多书,但是对于如何在Cassandra中精确设计一对多关系感到非常困惑。

Pie*_*rre 5

这在很大程度上取决于您要实现的所有请求。如果我理解正确,则您希望能够:

  1. 通过ID获取特定用户
  2. 获取用户的帖子列表

我的大部分建议都来自DataStax 出色页面的Cassandra数据建模基本规则。您必须首先了解该问题没有明确的答案。它在很大程度上取决于您要运行的查询以及您准备进行的权衡。例如:您是否期望特定用户的帖子数量真的很高(数千或数百万)?什么是最频繁的查询(即围绕数据建模的查询)?

  • 第一个模型似乎违反了规则2:最小化分区读取次数。帖子表的分区键是帖子ID(我想是随机的,例如UUID),结果是帖子分布在整个集群中。因此,假设您具有特定用户的帖子列表(实际上需要非常低效的集群扫描),那么如果每个用户的帖子数量足够大,您的请求将必须命中集群中的每个服务器。这是最坏的情况,绝对不是您想要的。

  • 第二种模型本质上更好,因为每个请求都可以使用一个请求来实现。您将存储空间用于读取性能,这通常是一件非常好的事情。我可能只是建议您查看物化视图(Cassandra 3.0+),它确实为您维护了这样一个表,尽管对您提出的MV所做的建议很复杂,因为您只能提供一个表作为视图源(即帖子)。

我还可以建议一种替代模型,该模型可以解决第一个建议中的设计缺陷,而无需重复数据(这同样不是问题),这里的关键是将User ID用作分区键,并将Post用于发布。 ID作为聚类密钥。这允许将特定用户的所有帖子存储在同一节点上,从而为从特定用户请求帖子提供了良好的性能。

CREATE TABLE user (
   userId int,
   name varchar,
   userDetail1,
   userDetail2,
   ...,
   PRIMARY KEY(userId)
);

CREATE TABLE post (
   userId int,
   postId int,
   postDetail1,
   postDetail2,
   PRIMARY KEY(userId, postId)
);
Run Code Online (Sandbox Code Playgroud)

该解决方案的主要缺点是,它使检索单个帖子的过程稍微复杂化:除了帖子ID外,您还必须传递用户ID信息。这可能不是问题,因为两者是内在联系的。

再次提醒您,除了非常简单的情况外,计算机科学中不可能存在一种最佳的做任何事情的最佳方法。这取决于您要最大化的指标集,要进行的权衡,更重要的是,对于存储系统而言,您将要运行的工作负载。