Har*_*hit 11 mysql normalization database-design string
我正在制作一个小程序,用户可以在其中发表帖子或写博客。在这些帖子上,其他用户可以像在 facebook 中一样喜欢或不喜欢帖子,也可以像在 stackoverflow 中一样对帖子投赞成票或反对票。我想知道一个常用的良好数据库结构,并且该程序可以有效地使用该结构。我有两个选择
第一的
邮政:
id head message datepost likes dislikes
1 ab anchdg DATE 1,2,3 7,55,44,3
Run Code Online (Sandbox Code Playgroud)
上面的方式,id
就是postid。在likes 列中,1,2,3
是喜欢或upvoted 帖子或博客的用户的ID。7,55,44,3
是不喜欢或贬低帖子或博客的用户的 ID。
第二
邮政:
id head message datepost
1 ab anchdg DATE
Run Code Online (Sandbox Code Playgroud)
喜欢:
id postid userid
1 1 1
2 2 2
Run Code Online (Sandbox Code Playgroud)
不喜欢:
id postid userid
1 1 7
2 1 55
Run Code Online (Sandbox Code Playgroud)
这样,我必须为喜欢和不喜欢创建两个单独的表才能获得帖子的喜欢。这样,表 ie Likes
&Dislikes
将被大量填满。这可能会使表格变重且处理速度变慢。
所以,我想知道哪种更好和标准的方法来完成这项任务?
til*_*l_b 21
您面临的问题被称为数据库的“范式”,尤其是第一范式。https://en.wikipedia.org/wiki/First_normal_form。
您的带有串联用户 ID(第一个版本)的数据库不是第一范式。
请参阅https://en.wikipedia.org/wiki/Database_normalization了解标准化通常被认为是好的原因和方式。
在您的第一个示例中,“用户 4 不再喜欢该帖子”的查询变得复杂。它将不得不进行字符串操作,这将不得不考虑副作用和极端情况(用户是唯一的“喜欢”用户,用户是最后一个喜欢的用户,用户在喜欢用户字符串的中间)。我会觉得这很糟糕。不要这样做。使用标准化设计。
回复:数据库变得很重
如果您的帖子有 400 万个赞,在数据库设计 1 中,您将有一行包含至少 400 万个字符宽的“喜欢”列(因为您需要逗号作为分隔符)。然后,您必须对 400 万位宽的字符串执行字符串操作。这是非常低效和缓慢的。
另一方面,数据库旨在处理数百万行。我们有数亿行的数据库,并且 count() 操作很快。非常快。所以不,这不会成为性能瓶颈。
下一个问题将是可读性和可维护性。
例如,告诉我这两个语句的作用:
select count(*)
from posts
inner join likes on posts.postid = likes.postid
where postid = 7
select len(likes) - len(replace(likes, ',', ''))
from posts
where postid = 7
Run Code Online (Sandbox Code Playgroud)
第二种方法要好得多,因为您可以轻松添加或删除喜欢/不喜欢。
但是您应该通过使用一张表格来表示喜欢或不喜欢来修改您的第二个解决方案。
喜欢/不喜欢表的列应该是 id、postid、userid 和另一个表示喜欢或不喜欢的值,例如 1 表示不喜欢,-1 表示喜欢。
将 post_id 和 user_id 设置为复合主键,它工作正常。
表的大小会随着时间的推移而增长。但是你只有两个真正的列。喜欢/不喜欢的 id 和值。postid 和 userid 仅链接到它并存储在您的用户和帖子表中。