Apache Spark ALS建议书

mon*_*ter 7 machine-learning collaborative-filtering apache-spark apache-spark-mllib

我运行了一个ALS推荐系统程序,该程序在Apache Spark网站上找到,该程序使用了Mllib.当使用评级为1-5的数据集时(我使用过MovieLens数据集),它会给出预测评级超过5的建议!我在小测试中发现的最高值是7.4.显然,我要么误解代码的意图,要么出错了.我研究过潜在因子推荐系统,并且认为Spark Mlib ALS实现基于.

为什么它会使得收视率高于可能的收视率呢?这没有道理.

我误解了算法还是程序存在缺陷?

Sea*_*wen 9

你正在寻找合适的论文,但是,我认为你期望算法做一些不打算做的事情.它作为两个矩阵的乘积产生输入的低秩近似,但是没有关于乘法矩阵的输出值.

您可以钳制或舍入值.你可能不希望它,因为你得到的额外信息是关于比预测评级强5多强.我认为算法在技术上也不可能假设最大可能值是输入中的最大观测值.