Rac*_*hel 142 language-agnostic algorithm data-mining
亚马逊推荐技术的屏幕背后有什么技术?我相信亚马逊推荐目前是市场上最好的,但他们如何为我们提供这样的相关建议?
最近,我们参与了类似的推荐项目,但肯定希望从技术角度了解亚马逊推荐技术的来龙去脉.
任何投入都将受到高度赞赏.
更新:
该专利解释了如何完成个性化建议,但它不是非常技术性的,因此如果可以提供一些见解,那将是非常好的.
根据Dave的评论,亲和力分析构成了此类推荐引擎的基础.这里还有一些关于主题的好读物
推荐阅读:
Dav*_*ick 103
它既是一门艺术,也是一门科学.典型的研究领域围绕市场购物篮分析(也称为亲和力分析),这是数据挖掘领域的一个子集.这种系统中的典型组件包括主驾驶员物品的识别和亲和物品的识别(辅助追加销售,交叉销售).
请记住他们必须挖掘的数据来源......
幸运的是,人们的行为总体上相似,所以他们对整体购买人群的了解越多,他们就越了解什么意愿和不会销售,每次交易和每个评级/心愿单添加/浏览他们都知道如何更个性化定制建议.请记住,这可能只是建议中最终影响的全部影响的一小部分,等等.
现在我对亚马逊如何开展业务没有内部知识(从未在那里工作过),而我所做的只是谈论解决在线商务问题的经典方法 - 我曾经是为微软数据挖掘和分析工作的PM产品名为Commerce Server.我们在Commerce Server中提供了允许人们构建具有类似功能的网站的工具....但销售量越大,数据越好,模型越好 - 亚马逊就是BIG.我只能想象在商业驱动的网站中使用包含那么多数据的模型是多么有趣.现在,许多算法(如在商业服务器中开始的预测器)已经转移到Microsoft SQL中.
你应该拥有的四大方法是:
在实际实施方面?几乎所有的大型在线系统可以归结为某一组管道(或过滤模式实现或工作流程等,你叫什么你会),允许对上下文由应用某种形式的系列模块进行评估商业逻辑.
通常情况下,不同的管道将与页面上的每个单独任务相关联 - 您可能有一个推荐"包/加售"(即使用您正在查看的项目购买)和一个"替代"(即购买)这个而不是你正在看的东西)和另一个从你的愿望清单(按产品类别或类似)拉取最密切相关的项目.
这些管道的结果可以放在页面的各个部分(滚动条上方,滚动下方,左侧,右侧,不同字体,不同大小的图像等)并进行测试以查看哪些执行最好.由于您使用的不错容易即插即用定义业务逻辑对这些管道,你最终与乐高积木的道德等价物,使得它很容易上手,并从当你建立另一个管道要应用于业务逻辑模块选择这允许更快的创新,更多的实验,并最终获得更高的利润.
这有帮助吗?希望能为您提供一些有关任何电子商务网站的一般信息 - 不仅仅是亚马逊.亚马逊(自说自话已经有工作的朋友)是驱动非常的数据和连续测量它的有效性是用户体验和定价,促销,包装等 - 他们是一个非常复杂的零售商在网上,并有可能在前缘他们用来优化利润的很多算法 - 这些都可能是专有机密(你知道像肯德基的秘密香料的公式)并且可以保证这样做.
Jus*_*eel 28
这与亚马逊的推荐系统没有直接关系,但研究参加Netflix奖的人使用的方法可能会有所帮助,这是一个使用Netflix用户数据开发更好推荐系统的竞赛.他们的社区中存在大量关于数据挖掘技术的好信息.
赢得的团队使用了许多不同模型/技术产生的建议的混合.我知道使用的一些主要方法是主成分分析,最近邻方法和神经网络.以下是获奖团队的一些论文:
R. Bell,Y.Koren,C.Volinsky," BellKor 2008 Netflix奖的解决方案 ",(2008年).
A.Töscher,M.Jahrer," 2008年Netflix奖的BigChaos解决方案 ",(2008年).
A.Töscher,M.Jahrer,R.Legenstein," 改进的基于邻域的大规模推荐系统算法 ",SIGKDD大型推荐系统研讨会和Netflix奖竞赛(KDD'08),ACM出版社(2008) .
Y. Koren," Netflix大奖的BellKor解决方案 ",(2009年).
A.Töscher,M.Jahrer,R.Bell," NetCix大奖的BigChaos解决方案 ",(2009年).
M. Piotte,M.Chabbert," Netflix大奖的实用主义理论解决方案 ",(2009年).
2008年的论文来自第一年的进步奖.我建议先阅读前面的内容,因为后面的内容是基于以前的工作.
小智 20
(Disclamer:我曾经在亚马逊工作,但我没有在推荐团队工作.)
ewernli的答案应该是正确的 - 本文链接到亚马逊的原始推荐系统,从我所知道的(从亚马逊购物者的个人经历和在其他公司的类似系统上工作过),几乎没有改变:亚马逊的推荐功能仍然非常依赖于逐项协同过滤.
看看建议采取的形式:在我的头版,它们都是"你看过X ......客户也看过这个也看过......"的形式,或者是类似东西的混搭物品我以前买过或看过.如果我特意转到我的"推荐给你"页面,每个项目都会描述为什么推荐给我:"推荐因为你购买了......","推荐因为你把X添加到你的愿望清单......"等等.这是项目到项目协同过滤的经典标志.
那么逐项协同过滤如何工作?基本上,对于每个项目,您构建相关项目的"邻域"(例如,通过查看人们一起查看的项目或人们一起购买的项目 - 来确定相似性,您可以使用像Jaccard索引这样的指标 ;相关性是另一种可能性,但我怀疑亚马逊不会非常严重地使用评级数据).然后,每当我查看商品X或购买Y时,亚马逊就会向我推荐与X或Y相同的社区.
亚马逊可能使用的其他一些方法,但很可能没有,这里描述:http://blog.echen.me/2011/02/15/an-overview-of-item-to-item-collaborative-filtering -with-亚马逊的推荐系统/
戴夫描述的很多内容几乎肯定不是在亚马逊完成的.(我的社交网络中的那些评级?不,亚马逊没有任何我的社交数据.这在任何情况下都是一个巨大的隐私问题,所以即使他们拥有这些数据,亚马逊也很难做到:人们不希望他们的朋友知道他们正在购买哪些书籍或电影.人口统计信息?没有,推荐中的任何内容都表明他们正在研究这个问题.[与Netflix不同,他确实展示了我所在地区其他人正在观看的内容.])