如何衡量 Doc2vec 模型的准确性?

swe*_*tha 1 unsupervised-learning gensim doc2vec

我有不同酒店的评论数据集。我试图通过酒店的评论找到类似的酒店。所以,我正在使用一种Doc2vec算法来实现这一目标。

Doc2Vec有没有什么方法可以使用 来衡量模型的准确性Gensim,而不是使用 的most_similar()函数来评估结果Gensim

goj*_*omo 5

作为Doc2Vec(又名“段落向量”算法)是一种无监督方法,因此不存在严格正确或错误的结果 \xe2\x80\x93 只是训练模型对于某些下游任务来说更好或更差。

\n\n

您个人如何确定结果对您的项目是否有价值?

\n\n

您必须将其中一些判断捕获到可重复的过程中 \xe2\x80\x93 例如,一种方法可能是手工制作一系列酒店对的列表,根据您的专家人类水平判断,“应该更相似” ” 彼此比别人,或者也许是在彼此的“前N”中最接近的结果。然后Doc2Vec与其他方法(或多次交替参数化运行)相比,根据该理想情况对模型进行评分Doc2Vec)相比,根据该理想情况对模型进行评分。

\n\n

您也许可以从现有数据源中引导一些“应该更相似”的对。例如,也许同一连锁店中的两家酒店彼此“应该更相似”,而不是某个随机的第三家酒店。(因此,他们的品牌名称的外部数据将指导您的评估,理想情况下,如果您确定品牌名称没有泄漏到用于训练模型的文档文本中。)或者,也许,两家地理位置相同的酒店并且在价格方面彼此接近“应该比随机的第三个更相似”。

\n\n

但是对于所有可能的文档和项目目标领域的这种模糊表示,没有标准/自动的“准确性”概念。您需要开发自己的自定义评估,以便能够在算法之间进行选择或调整算法。

\n