Solr Relevancy - 如何对搜索质量进行A/B测试?

php*_*boy 8 testing solr

我希望执行实时A/B和受控的并排实验,以帮助了解更改如何影响搜索质量.我将测试变量值和模糊查询等变量.

还有哪些其他指标用于确定用户是否更喜欢A对B?以下是我在网上找到的2个指标...

  • 在Google Analytics中,"%搜索退出"是一种指标,可用于衡量网站搜索结果的质量

  • 衡量搜索质量的另一种方法是衡量访问者查看的搜索结果页数.

Yav*_*var 8

搜索质量是不容易衡量的.要衡量相关性,您需要做几件事:

  1. 衡量相关性的竞争对手.对于您的情况,您的搜索引擎的不同实例将成为彼此的竞争对手.我的意思是一个搜索引擎实例将运行基本算法,另一个启用模糊,另一个同时具有模糊和增强等等.

  2. 您需要手动评估结果.你可以问问你的同事评价为流行的查询的查询/ URL对,然后在孔(即查询/ URL对未评级您可以通过使用一些动态排名功能"学习等级"算法的http://en.wikipedia. org/wiki/Learning_to_rank.不要对此感到惊讶,但这是真的(请阅读下面的Google/Bing示例).

Google和Bing是横向搜索市场的竞争对手.这些搜索引擎在世界各地使用手工评委,并在其上投入数百万美元,对查询结果进行评级.因此,对于每个查询/网址对,通常对前3个或前5个结果进行评级.基于这些评级,他们可以使用像NDCG(标准化折扣累积增益)这样的度量,这是最好的度量之一,也是最受欢迎的度量之一.

根据维基百科:

折扣累积增益(DCG)衡量Web搜索引擎>算法或相关应用程序的有效性,通常用于信息检索.使用搜索引擎结果集中的分级>相关性文档比例,DCG根据文档在结果列表中的位置来衡量文档的有用性,>或增益.增益从结果列表的顶部累积到底部,每个结果的增益在>较低的等级处打折.

维基百科以极好的方式解释了NDCG.这是一篇简短的文章,请仔细阅读.

正如你所提到的,你也可以点击率/数据,你有智慧的人群算法,你可以根据它调整相关性.这是一个非常好的出路,但它吸引了垃圾邮件.因此,它必须与NDCG/MAP等一些指标相结合,以解决您的相关问题.

如果你还需要了解更多关于如何整合这些东西在你的案例研究中起作用的话,我可以提供更多细节.