StumbleUpon推荐引擎的架构和基本组件

Question

StumbleUpon推荐引擎的架构和基本组件

jvc*_*jvc 9 recommendation-engine machine-learning similarity collaborative-filtering

我想知道stumbleupon如何为其用户推荐文章？

它是使用神经网络还是某种机器学习算法,还是实际根据用户"喜欢"推荐文章,还是根据兴趣区域中的标签推荐文章？使用标签,我的意思是,使用像基于项目的协作过滤等？

Answer 1

首先,我对S/U的推荐引擎没有内部知识.我所知道的,我从过去几年关注这个主题以及研究公开来源(包括StumbleUpon自己在公司网站和博客上的帖子),当然还有StumbleUpon的用户那里学到了什么.

我还没有找到一个权威或其他方面的资源,它接近于说"这里是S/U推荐引擎如何工作",仍然认为这可以说是有史以来最成功的推荐引擎 - 统计数据是疯了,S/U占互联网上所有转介的一半以上,并且远远超过Facebook,尽管Facebook拥有一小部分注册用户(8亿而不是1500万); 更多S/U并不是真正的推荐引擎网站,比如亚马逊网站,而不是网站本身就是推荐引擎 - 在相当小的一群人中,有大量的讨论和八卦建议引擎,如果你仔细筛选,我认为可以可靠地删除所使用的算法类型,提供给它们的数据源,以及它们如何在工作数据流中连接.

下面的描述参考我的底部图.数据流中的每个步骤都由罗马数字表示.我的描述向后进行 - 从URL传递给用户的点开始,因此在实际使用中,步骤I最后发生,步骤V首先发生.

鲑鱼色椭圆 => 数据来源

浅蓝色矩形 => 预测算法

I.推荐给S/U用户的网页是多步骤流程的最后一步

II.StumbleUpon推荐引擎提供来自三个不同来源的数据(网页):

网站的网页标记为话题标签符合预先设定的兴趣 S(主题用户已指示为利益,哪些是可通过单击"设置"选项卡上的上右上角查看/修改登录的用户页);
社交认可页面(*此用户的朋友喜欢的页面*); 和
peer-Endorsed Pages(*类似用户喜欢的页面*);

III.反过来,这些来源是由StumbleUpon预测算法返回的结果(类似用户指的是由聚类算法确定的同一群集中的用户,这可能是k均值).

IV.用于对集群引擎进行训练的数据由包含用户评级的网页组成

V.该数据集(由StumbleUpon用户评定的网页)也用于训练监督分类器(例如,多层感知器,支持向量机)该监督分类器的输出是应用于网页的类标签.尚未被用户评分.

我发现在其他推荐系统的背景下讨论SU的推荐引擎的唯一最佳来源是BetaBeat Post.

在此输入图像描述

归档时间：	14 年，5 月前
查看次数：	1975 次
最近记录：	13 年，10 月前