自动产品分类和查询权重

Question

我正面临使用solr的排名问题而且我被困了.

给定一个电子商务网站,对于查询"ipad",我获得:

这是一个问题,因为我们想要排名第一的主要产品(或产品本身)和tf/idf排名第一的配件由于描述,如"ipad案例兼容ipad,ipad2,ipad3,ipad视网膜,ipad mini等".

此外,使用类别我们无法确定是附件还是产品.

我想知道使用自动分类是否有帮助.另一种改善这种排名的解决方案(如Named Entity Recognition)将不胜感激.

Answer 1

你能提供标记数据吗？

如果您有> 50k项目,并且Naive Bayes使用产品名称培训的二元语言模型将几乎捕获所有配件,准确度为99%.我想你可以用Mahout训练这样一个天真的贝叶斯,但是产品名称的二元数量非常有限,所以现在即使在智能手机上也可以轻松快速地训练.

这是典型的机械土耳其人任务,标记一些物品不应该那么昂贵.但是,如果你坚持使用一些半监督算法,我发现Iterative similarity aggregation非常有用.

主要的想法是你提供一些像"case"/"power adapter"这样的令牌,并且迭代地发现新的令牌是垃圾邮件的指标,因为它们出现在同一个上下文中.

这是一篇论文,但我也写了一篇关于这篇文章的博客文章,用简单的语言总结了这个意图.本文还提到了Sean提出的"让用户找到合适的项目"范例,因此两者可以结合使用.

哦,如果您需要Lucene和SOLR的机器学习建议,我可以向您推荐今年在ApacheCon Europe上我的朋友Tommaso Teofili的谈话.您可以在slidehare上找到幻灯片.还有一个关于那里的谈话的youtube视频,只是搜索它;)