Doc2Vec是否学习标签的表示？

Question

我使用Doc2Vec标记作为我的文档的唯一标识符,每个文档都有不同的标记,没有语义含义.我正在使用标签查找特定文档,以便我可以计算它们之间的相似性.

标签会影响我的模型的结果吗？

在本教程中,他们讨论了一个参数train_lbls=false,将其设置为false,没有为标签(标签)学习的表示.

该教程有点过时了,我猜参数不再存在,Doc2Vec如何处理标签？

Answer 1

对于gensim的Doc2Vec,您的文本示例必须是类似于示例TaggedDocument类的对象:with words和tagsproperties.该tags属性应该是一个"标签"列表,它作为将从相应文本中学习的doc向量的键.

在经典/原始案例中,每个文档都有一个标记 - 实际上是该文档的唯一ID.(标签可以是字符串,但是对于非常大的语料库,如果你使用普通Python整数的标签,从0开始,没有跳过的值,Doc2Vec将使用更少的内存.)

标签用于在训练后查找学习的向量.如果您在使用单个标签进行培训期间有文档'mars',则可以使用以下方法查找学习向量:

model.docvecs['mars']

如果您正在model.docvecs.most_similar['mars']拨打电话,结果也将通过其标签键进行报告.

标签只是 doc-vectors集合的关键 - 它们没有语义含义,即使从文本中的单词标记重复一个字符串,这个标记键和单词之间也没有必要的关系.

也就是说,如果你有一个单一ID标签为'mars'的文档,那么通过该key(model.docvecs['mars'])访问的学习文档向量与使用相同字符串键(model.wv['mars'])访问的任何学习单词向量之间没有本质关系- 它们来自单独的向量集合.