Word2vec与弹性搜索文本相似性

Question

我有大量的文本,每个文本都在快速增长.我需要实现相似性搜索.

我们的想法是将每个单词嵌入为word2vec,并通过向量添加每个单词的嵌入来将每个文本表示为标准化向量.随后对文本的添加只会通过向其添加新的单词向量来优化结果文本的向量.

是否可以通过在文档中仅存储每个文本的规范化向量的坐标来使用弹性搜索来进行余弦相似性？如果是这样,这种搜索的正确索引结构是什么？

Answer 1

此弹性搜索插件为使用delimited-payload-tokenfilter存储的向量实现了得分函数(点积)

这种搜索的复杂性是文档数量的线性函数,并且在术语查询中比tf-idf更差,因为ES首先搜索倒排索引然后它使用tf-idf作为文档分数,所以tf-idf是没有在索引的所有文件上执行.使用向量,您要搜索的表示是具有较低余弦距离的文档的向量空间,而没有倒排索引的优点.

Answer 2

对于 Elasticsearch 6.4.x，StaySense 已提供此插件。