我想知道分布式mahout推荐器作业如何org.apache.mahout.cf.taste.hadoop.item.RecommenderJob处理csv文件,其中存在重复和三重用户,项目条目但具有不同的首选项值.例如,如果我有一个包含类似条目的.csv文件
1,1,0.7
1,2,0.7
1,2,0.3
1,3,0.7
1,3,-0.7
Mahout的数据模型将如何处理这个问题?它会为给定用户,项目条目(例如,对于用户项目1,2,偏好将是(0.7 + 0.3))总结偏好值,或者是否对值进行平均(例如,对于用户项目1,2,偏好是(0.7 + 0.3)/ 2)或者它是否默认为最后一个用户,它检测到的项目条目(例如,对于用户1,2,优先级值设置为0.3).
我问这个问题是因为我正在考虑基于多个偏好指标的推荐(项目视图,喜欢,不喜欢,保存到购物车等).如果数据模型将偏好值视为线性权重(例如,项目视图加上保存到愿望列表具有比项目视图更高的偏好分数)将是有帮助的.如果datamodel已经通过求和来处理这个问题,它将为我节省额外map-reduce的杂项,以根据多个指标对总分进行排序和计算.任何人都可以在mahout上提供任何澄清.csv datamodel在这方面的工作org.apache.mahout.cf.taste.hadoop.item.RecommenderJob将非常感激.谢谢.