我的 SOLR 中索引了数千个文档,这些文档代表从不同网站爬取的数据。文档的字段之一是 SourceURL,它包含我爬行并索引到此文档中的网页的 URL。
我想使用提升查询来提升特定网站的结果。例如,我有 4 个文档,每个文档在 SourceURL 中包含以下数据
我想提升来自 stackoverflow.com 的所有结果,而不是子域(在本例中为结果 2 和 3 )。
您知道如何对 url 字段建立索引,然后使用 boost 查询来识别来自特定网站的所有文档吗?就像上面的情况一样?
一种方法是在索引时间之前解析 url 并指定它是否是主域(primarydomain例如 schema.xml 文件中的布尔字段)。
然后您可以增强primarydomain查询结果中的字段。有关如何在查询时增强字段的示例,请参阅使用Solr Wiki 中的DisMaxQParserPlugin 。
| 归档时间: |
|
| 查看次数: |
1365 次 |
| 最近记录: |