你好群体智能!
我有以下用例:对于用户请求的每部电影,我为该特定电影创建许多标签,这些标签源自多个来源(演员、情节等)。
我将使用这些数据进行关联挖掘。
问题:如果我使用电影作为行,标签作为列,标签将很容易超出 3000 列的技术限制(还有更多的演员,然后是情节关键字等)
有什么方法可以组织这些数据,然后将其用于(快速)关联挖掘吗?
多谢
不要将标签放在列中。movie_tags相反,创建一个单独的表,命名为带有两列movie_id和 的名称tag。将每个标签放在该表的单独行中。
这称为“标准化”您的数据。这是一个很好的演练,其中有一个与您的示例非常相似的示例。
编辑:假设您有一份关于 20 世纪纽约市意大利黑手党的电影目录。假设电影是
1 Godfather
2 Goodfellas
3 Godfather II
Run Code Online (Sandbox Code Playgroud)
那么您的movie_tags表可能包含这些行。
1 Gangsters
2 Gangsters
3 Gangsters
1 Francis Ford Coppola
3 Francis Ford Coppola
2 Martin Scorsese
Run Code Online (Sandbox Code Playgroud)
专业提示 如果您发现自己正在考虑将大量具有相同含义的数据项放入各自的列中,则可能需要标准化数据并添加适当的表。