swa*_*060 6 elasticsearch morelikethis
我正在使用elasticsearch来查找类似的文档。以下是我正在使用的查询:
{
"query": {
"more_like_this":{
"like": {
"_index": "docs",
"_type": "pdfs",
"_id": "pdf_1"
},
"min_term_freq": 1,
"min_doc_freq": 1,
"max_query_terms: 50,
"minimum_should_match": "50%"
}
}
}
Run Code Online (Sandbox Code Playgroud)
我正在从 PDF 中提取文本并将其存储在我的索引“文档”中。以下是“pdfs”类型的映射:
{
"properties": {
"content":{
"type": "string",
"analyzer": "my_analyzer"
}
}
}
Run Code Online (Sandbox Code Playgroud)
在结果集中,我得到了类似的文档及其分数。根据我到目前为止所读到的内容,不可能根据分数计算相似度百分比,所以我不想这样做。我试图弄清楚是否有可能知道:
“在源文档的 50 个查询术语中,有多少个术语在文档中匹配?或匹配术语的百分比?”
正如您所看到的,在我的查询中,我将minimum_should_match指定为50%,因此我假设elasticsearch正在根据文档中匹配的术语百分比来过滤某处的文档。我想得到这个百分比。我对 Elasticsearch 相当陌生。到目前为止,我已经浏览了文档,但不知道如何操作。任何指示/帮助表示赞赏!
| 归档时间: |
|
| 查看次数: |
995 次 |
| 最近记录: |