如何在 SOLR 中索引 URL,以便我可以在网站发布后提高结果

Dor*_*rin 5 solr

我的 SOLR 中索引了数千个文档,这些文档代表从不同网站爬取的数据。文档的字段之一是 SourceURL,它包含我爬行并索引到此文档中的网页的 URL。

我想使用提升查询来提升特定网站的结果。例如,我有 4 个文档,每个文档在 SourceURL 中包含以下数据

  1. https://meta.stackoverflow.com/page1
  2. http://www.stackoverflow.com/page2
  3. https://stackoverflow.com/page3
  4. https://stackexchange.com/page1

我想提升来自 stackoverflow.com 的所有结果,而不是子域(在本例中为结果 2 和 3 )。

您知道如何对 url 字段建立索引,然后使用 boost 查询来识别来自特定网站的所有文档吗?就像上面的情况一样?

Pai*_*ook 3

一种方法是在索引时间之前解析 url 并指定它是否是主域(primarydomain例如 schema.xml 文件中的布尔字段)。

然后您可以增强primarydomain查询结果中的字段。有关如何在查询时增强字段的示例,请参阅使用Solr Wiki 中的DisMaxQParserPlugin 。