我有点新手,不以英语为母语等有一定无法理解Gensim的word2vec和doc2vec.
我认为两者都给了我一些与我要求的查询词最相似的单词most_similar()(训练后).
怎样才能知道我有这种情况下,使用word2vec或doc2vec?
有人可以用简短的词来解释差异吗?
谢谢.
pem*_*eci 14
在word2vec中,您训练找到单词向量,然后在单词之间运行相似性查询.在doc2vec中,您可以标记文本,还可以获得标记向量.例如,您拥有来自不同作者的不同文档,并将作者用作文档上的标记.然后,在doc2vec训练之后,您可以使用相同的矢量aritmetics对作者标签运行相似性查询:即谁是最相似的作者AUTHOR_X?如果两位作者通常使用相同的单词,那么他们的向量将更接近.AUTHOR_X不是一个真正的单词,它是你的语料库的一部分,只是你决定的东西.因此您无需拥有它或手动将其插入到文本中.Gensim允许您使用或不使用单词向量训练doc2vec(即,如果您只关心彼此之间的标记相似性).
以下是关于word2vec基础知识以及他们如何以创新方式使用doc2vec进行产品推荐(相关博客文章)的精彩演示.
如果你告诉我你要解决的问题,我可以建议哪种方法更合适.