实施无监督学习推荐系统

Question

我一直在研究有关推荐系统的文章和书籍以及建议它们建议的方法.在其中许多人中,Netflix比赛就是一个例子.在Netflix用户评价电影(从1到5).在该竞赛中,竞争者被给予用户的电影和相应评级的数据库,并且他们应该实施最能预测电影评级的系统,并且使用该评级将向用户推荐电影.

对于评估,他们建议使用使用预测和实际评级作为参数的度量进行交叉验证.使用用户的历史记录和他对电影的评分来计算预测评级.

我正在尝试建立一个新闻推荐系统.我现在面临的问题是这个消息只是在短时间内相关,而且几乎没有人会给新闻评分.所以,我只有隐含的反馈(观点),没有明确的反馈(评级).同样在Netflix问题中,它们还提供了一个数据库.我想知道如何应对冷启动问题,因为一开始没有新闻会被阅读(查看).

如果你可以建议我如何避免冷启动问题,我会非常感激,一旦我有一个算法,我怎么能测试它是否正常工作.

谢谢!

Answer 1

为了开始您正在进行的这个项目，我建议进行聚类以查找相关/热门项目的新闻模式。您融入的功能越多，就越能为您的结果增加价值（这部分需要仔细选择、研究和统计分析）。

对于新闻推荐 - 您可以采用分层方法，所以假设第一部分是扫描“积极”/包含评论该文章的人的某些关键字的文章。

那么第二个分层方法可能是交叉引用 Twitter 对该文章的响应、Facebook 的点赞/流量、有多少 pinterest 用户固定该文章等等……

您还可以检查 google、bing 等特定主题的热门关键词，这样就可以确保您所展示的文章是“相关的”

我还建议从小事做起，因为网络上有很多文章 - 也许可以考虑关注一个主题，然后概括它。您可能会注意到，“文章”的受欢迎程度与人们关注的某些声音有些联系，因此这是查找该文章相关性的另一种方式。

以下是有关无监督学习的更多信息： http: //en.wikipedia.org/wiki/Unsupervised_learning

您可能还想研究期望最大化，以找出哪些变量可以改善您获得的未观察到的数据。这是 EM 的完整解释 https://stats.stackexchange.com/questions/72774/numerical-example-to-understand-expectation-maximization