Chroma 的相似度与分数的结果较低是否意味着准确性较高?

Obj*_*lay 2 vector-database langchain chromadb

我有一个简单的问题:我正在使用带有 LangChain 的 Chroma 矢量存储。

我用 Chroma.from_texts 提出了一个简单的文档搜索。我最初非常困惑,因为我认为对于接近答案的查询,similarity_score_with_score 会更高,但从我的测试看来,事实恰恰相反。这是因为它在搜索时返回两个向量之间的“距离”吗?我正在查看文档,但它只说“与查询最相似的文档列表以及每个文档的分数”,但没有解释“分数”是什么

文档参考https://python.langchain.com/en/latest/reference/modules/vectorstores.html?highlight=similarity_search#langchain.vectorstores.Annoy.similarity_search_with_score还可以提供有关我使用的(小开始)数据集的更多信息和我测试过的查询。

小智 7

正如您所说,它在搜索时返回两个向量之间的“距离”。这些相似的向量将在向量空间中彼此靠近放置。距离越小意味着文档彼此更相似。