小编Ste*_*ere的帖子

有什么方法可以提取谷歌通用句子编码器的详尽词汇吗?

我正在为一些句子创建嵌入,它对于相似性搜索非常有用,除非句子中有一些真正不寻常的单词。

在这种情况下,真正不寻常的单词实际上包含句子中任何单词的最相似信息,但由于该单词显然不在模型的词汇表中,因此所有这些信息在嵌入过程中都会丢失。

我想获得 GUSE 嵌入模型已知的所有单词的列表,以便我可以将这些已知单词从句子中屏蔽掉,只留下“新奇”单词。

然后,我可以对目标语料库中的那些新词进行精确的词搜索,并实现相似句子搜索的可用性。

例如“我喜欢使用 Xapian!” 被嵌入为“我喜欢使用 UNK”。

如果我只是对“Xapian”进行关键字搜索而不是语义相似性搜索,我会得到比使用 GUSE 和向量 KNN 更相关的结果。

关于如何提取 GUSE 已知/使用的词汇有什么想法吗?

tensorflow tensorflow-hub

7
推荐指数
1
解决办法
936
查看次数

标签 统计

tensorflow ×1

tensorflow-hub ×1