我正在为一些句子创建嵌入,它对于相似性搜索非常有用,除非句子中有一些真正不寻常的单词。
在这种情况下,真正不寻常的单词实际上包含句子中任何单词的最相似信息,但由于该单词显然不在模型的词汇表中,因此所有这些信息在嵌入过程中都会丢失。
我想获得 GUSE 嵌入模型已知的所有单词的列表,以便我可以将这些已知单词从句子中屏蔽掉,只留下“新奇”单词。
然后,我可以对目标语料库中的那些新词进行精确的词搜索,并实现相似句子搜索的可用性。
例如“我喜欢使用 Xapian!” 被嵌入为“我喜欢使用 UNK”。
如果我只是对“Xapian”进行关键字搜索而不是语义相似性搜索,我会得到比使用 GUSE 和向量 KNN 更相关的结果。
关于如何提取 GUSE 已知/使用的词汇有什么想法吗?