如何建立电影推荐系统?

mel*_*iny 10 algorithm semantic-web recommendation-engine machine-learning collective-intelligence

  • 什么是最好的方法?
  • 使用的算法是什么?他们的优点和缺点是什么?
  • 为什么目前的电影推荐系统无法提供好的推荐?

oos*_*wal 9

这是一个非常开放的问题,涉及许多不同的概念.

作为初始讨论点,考虑k近邻算法.它广泛用于类似于你的电影选择器的问题.此算法的一个主要问题是人工输入决定您使用多少维来分割特征空间并选择每个维度的属性,以便每个维度都增加值,而不是复制另一个维度的值.

与k-NN算法直接相关的是聚类分析领域.当您绘制数据点以获得在更多散乱的异常值中具有团块的信息时,您可以直观地看到在聚集点中存在某种相似性.您可以轻松地将一些散乱的异常值与一个或另一个丛集合在一起,但是在可能适合两个或更多竞争团块的团块之间会有许多点.解决这一难题的唯一方法是向数据点添加更多维度参数,以便将那些未提交的异常值绘制到一个丛集中.(点击链接可以看到丛生数据的精彩图片.)

这个简短的介绍导致了下一个概念: 模式识别.该课程是数学上的重点,是理论计算科学,统计学,人工智能,机器学习和千里眼等领域的大量研究课题.最后一个是半开玩笑,但它指出了问题的关键: 计算机如何预测未来你会做什么? 简短的回答是它不能.较长的答案试图解释为什么你的口味和情绪在看似随机的时间看似随意的方向变化.一个好的模式识别系统可能会挑选你真正喜欢的20部电影,然后推荐另外一部来自同一丛的电影,另外20部就是你非常讨厌的电影.系统在哪里失败?是在算法实现中,初始选择特征空间维度的参数,还是由于其他人使用您的Netflix帐户订购' Howard the Duck ',' Cruising '和' Beaches "?

"模式识别"的维基百科页面列出了许多不同的算法和方法.你可以从那里开始阅读,以更好地处理个人的优势和劣势.您也可以尝试在理论计算机科学堆栈中提出这个问题,以获得长发答案.