ndg*_*ndg 3 php collaborative-filtering
我试图通过PHP实现一个Slope One算法,用于基于用户的项目推荐.为此,我正在使用OpenSlopeOne库.我遇到的问题是生成的建议与用户完全无关.
目前我有两个表:user_ratings和slope_one.user_ratings表非常简单.它包含该特定用户(user_id,item_id和user_item_rating)给出的每项评级.slope_one表遵循OpenSlopeOne的默认架构:item_id1,item_id2,次数和评级.
使用以下SQL过程填充slope_one表:
CREATE PROCEDURE `slope_one`()
begin
DECLARE tmp_item_id int;
DECLARE done int default 0;
DECLARE mycursor CURSOR FOR select distinct item_id from user_ratings;
DECLARE CONTINUE HANDLER FOR NOT FOUND set done=1;
open mycursor;
while (!done) do
fetch mycursor into tmp_item_id;
if (!done) then
insert into slope_one (select a.item_id as item_id1,b.item_id as item_id2,count(*) as times, sum(a.rating-b.rating) as rating from user_ratings a, user_ratings b where a.item_id = tmp_item_id and b.item_id != a.item_id and a.user_id=b.user_id group by a.item_id,b.item_id);
end if;
END while;
close mycursor;
end
Run Code Online (Sandbox Code Playgroud)
为了获取给定用户最相关的建议,我执行以下查询:
SELECT
item.*
FROM
slope_one s,
user_ratings u,
item
WHERE
u.user_id = '{USER_ID}' AND
s.item_id1 = u.item_id AND
s.item_id2 != u.item_id AND
item.id = s.item_id2
GROUP BY
s.item_id2
ORDER BY
SUM(u.rating * s.times - s.rating) / SUM(s.times) DESC
LIMIT 20
Run Code Online (Sandbox Code Playgroud)
如前所述,这似乎不起作用.我正在使用相当大的数据集(10,000多条建议),但我没有看到任何形式的相关性.事实上,大多数建议似乎对用户来说是相同的,即使是完全不同的项目评级.
(是的,我故意给出另一个答案.)
另一个答案是所有这些算法都有优点和缺点,并且在某一天表现良好,但在其他方面表现不佳.但是我前段时间对坡度有一个类似的观察,甚至还得到了Daniel Lemire的一些评论,他们原本提出了实施方案.
考虑当数据变得100%密集时会发生什么 - 每个用户对每个项目进行评级.项目A和项目B之间的评级差异是所有评级用户u的评级差异的平均值:平均值(r_uB-r_uA).但是,正如所有用户评分一样,它仅接近B的平均评级(超过所有用户),减去A的平均评级:平均评分(r_uB) - 平均评分(r_uA).将这些平均值(B)和平均值(A)称为"平均值".
想象一下整体平均评分最高的P项.A和P之间的差异将大于A和任何其他B之间的差异; 它是(平均(P) - 平均值(A)),相对于(平均值(B) - 平均值(A)).P的差异总是高于任何其他B乘以(平均值(P) - 平均值(B)).
但是,由于该算法通过将这些差异添加到用户的评级来估计偏好,并对其进行平均,因此P始终成为所有用户的最佳建议.无论用户的评分是什么,无论差异如何,P(和平均)的总和最大.等等.
这是数据变得密集的趋势,我认为你已经看到了这种效应的回声.这不是"错误的"(毕竟P被高度评价!)但是当建议变得非个性化时,感觉直觉上不是最理想的.
Daniel Lemire表示,在一些后续文章中描述的更好的方法是将数据模型分为"正面"和"负面"评级,并从两者中构建独立模型.它避免了其中一些并提供了更好的性能.
在Apache Mahout中实现的另一个变体是在估计的偏好计算中使用更好的权重.它可以选择对具有高标准偏差的差异和低标准偏差的差异进行加权.这有利于在许多用户上计算的差异.这是一个粗略的步骤,但有帮助.