小编Ste*_*ere的帖子

我正在为一些句子创建嵌入，它对于相似性搜索非常有用，除非句子中有一些真正不寻常的单词。

在这种情况下，真正不寻常的单词实际上包含句子中任何单词的最相似信息，但由于该单词显然不在模型的词汇表中，因此所有这些信息在嵌入过程中都会丢失。

我想获得 GUSE 嵌入模型已知的所有单词的列表，以便我可以将这些已知单词从句子中屏蔽掉，只留下“新奇”单词。

然后，我可以对目标语料库中的那些新词进行精确的词搜索，并实现相似句子搜索的可用性。

例如“我喜欢使用 Xapian！” 被嵌入为“我喜欢使用 UNK”。

如果我只是对“Xapian”进行关键字搜索而不是语义相似性搜索，我会得到比使用 GUSE 和向量 KNN 更相关的结果。

关于如何提取 GUSE 已知/使用的词汇有什么想法吗？

7
推荐指数

1
解决办法

936
查看次数

小编Ste_ere的帖子