喜欢或投票的帖子

Har*_*hit 11 mysql normalization database-design string

我正在制作一个小程序,用户可以在其中发表帖子或写博客。在这些帖子上,其他用户可以像在 facebook 中一样喜欢或不喜欢帖子,也可以像在 stackoverflow 中一样对帖子投赞成票或反对票。我想知道一个常用的良好数据库结构,并且该程序可以有效地使用该结构。我有两个选择

第一的

邮政:

id   head   message   datepost   likes   dislikes
1     ab    anchdg     DATE      1,2,3   7,55,44,3
Run Code Online (Sandbox Code Playgroud)

上面的方式,id就是postid。在likes 列中,1,2,3是喜欢或upvoted 帖子或博客的用户的ID。7,55,44,3是不喜欢或贬低帖子或博客的用户的 ID。

第二

邮政:

id    head  message   datepost
1     ab    anchdg     DATE
Run Code Online (Sandbox Code Playgroud)

喜欢:

id    postid    userid
1       1         1
2       2         2
Run Code Online (Sandbox Code Playgroud)

不喜欢:

id    postid    userid
1       1         7
2       1         55
Run Code Online (Sandbox Code Playgroud)

这样,我必须为喜欢和不喜欢创建两个单独的表才能获得帖子的喜欢。这样,表 ie Likes&Dislikes将被大量填满。这可能会使表格变重且处理速度变慢。

所以,我想知道哪种更好和标准的方法来完成这项任务?

til*_*l_b 21

您面临的问题被称为数据库的“范式”,尤其是第一范式。https://en.wikipedia.org/wiki/First_normal_form

您的带有串联用户 ID(第一个版本)的数据库不是第一范式。

请参阅https://en.wikipedia.org/wiki/Database_normalization了解标准化通常被认为是好的原因和方式。

在您的第一个示例中,“用户 4 不再喜欢该帖子”的查询变得复杂。它将不得不进行字符串操作,这将不得不考虑副作用和极端情况(用户是唯一的“喜欢”用户,用户是最后一个喜欢的用户,用户在喜欢用户字符串的中间)。我会觉得这很糟糕。不要这样做。使用标准化设计。

回复:数据库变得很重

如果您的帖子有 400 万个赞,在数据库设计 1 中,您将有一行包含至少 400 万个字符宽的“喜欢”列(因为您需要逗号作为分隔符)。然后,您必须对 400 万位宽的字符串执行字符串操作。这是非常低效和缓慢的。

另一方面,数据库旨在处理数百万行。我们有数亿行的数据库,并且 count() 操作很快。非常快。所以不,这不会成为性能瓶颈。

下一个问题将是可读性和可维护性。

例如,告诉我这两个语句的作用:

select count(*)
from posts
inner join likes on posts.postid = likes.postid
where postid = 7

select len(likes) - len(replace(likes, ',', ''))
from posts
where postid = 7
Run Code Online (Sandbox Code Playgroud)

  • @HarshitShrivastava mysql 可以处理包含 10 亿行的简单表,但将这些 10 亿(不)喜欢的点想象成您的用户表中的字符串——这可能更大且难以处理。 (7认同)
  • @til_b 没有直接提到的一件事(但通常通过使用范式暗示)是第二个设计,正确实现,将允许底层数据库引擎保持引用完整性,这是第一个设计模式无法完成的。这实质上意味着,如果用户 4 被删除,数据库将清除链接数据,因为它知道哪些记录依赖于用户 4 记录。第一种设计无法做到这一点,因为数据库并不直观地知道如何管理字符串中的关系。 (4认同)

jul*_*999 9

第二种方法要好得多,因为您可以轻松添加或删除喜欢/不喜欢。

但是您应该通过使用一张表格来表示喜欢或不喜欢来修改您的第二个解决方案。
喜欢/不喜欢表的列应该是 id、postid、userid 和另一个表示喜欢或不喜欢的值,例如 1 表示不喜欢,-1 表示喜欢。

将 post_id 和 user_id 设置为复合主键,它工作正常。

表的大小会随着时间的推移而增长。但是你只有两个真正的列。喜欢/不喜欢的 id 和值。postid 和 userid 仅链接到它并存储在您的用户和帖子表中。

  • 您应该在表中有 `user_id`、`post_id` 和 `value`。不需要单独的 `id` 列。 (3认同)
  • 正如@jkavalik 对这个问题的评论所建议的那样,1 和 -1 可能比 1 和 2 更好地表示喜欢和不喜欢,因为它可以通过简单的表格总和来计算总分,而不是减去行数为“1”的行数为“2”。 (3认同)