amc*_*h89 9 recommendation-engine machine-learning data-science
我在 Towards Data Science/medium/ 等方面发现了数十篇关于使用 imdb 数据制作推荐引擎的文章(基于用户对电影的评分,我们应该向这些用户推荐哪些电影)。这些文章从基于用户的内容过滤和基于项目的内容过滤的“基于内存的方法”开始。我的任务是制作一个推荐引擎,由于没有一个套装真正关心或了解这一点,我想做最低限度的工作(这似乎是基于用户的内容过滤)。
问题是,我所有的数据都是二元的(没有评分,只是根据其他用户购买的物品,我们是否应该向类似用户推荐物品-这实际上类似于所有媒体文章都从彼此那里窃取的漫画,但是没有一篇中等文章给出了如何做到这一点的例子)。
所有文章都使用 Pearson Correlation 或余弦相似度来确定用户相似度,我可以将这些方法用于二进制维度(购买与否),如果可以,如何,如果不是,是否有不同的方法来衡量用户相似度?
我正在使用 python 顺便说一句。我在想也许使用汉明距离(有没有不好的原因)
from scipy.spatial.distance import cosine
1 - cosine([5,3,2,0,1],[4,3,3,0,0])
0.961161313666907
1 - cosine([1,1,1,0,1],[1,1,1,0,0])
0.8660254037844386
Run Code Online (Sandbox Code Playgroud)