如何评估 Word2Vec 模型

Question

嗨，有我自己的语料库，我在上面训练了几个 Word2Vec 模型。对他们进行相互评估并选择最好的一种的最佳方法是什么？（显然不是手动 - 我正在寻找各种措施）。

值得注意的是，嵌入是针对项目而不是单词，因此我不能使用任何现有的基准。

谢谢！

Answer 1

如果您甚至不使用可以尝试其他任务（如流行的类比求解）的真实单词，则没有通用的方法来评估标记向量的质量。

如果您有自定义的终极任务，则必须设计自己的可重复评分方法。这可能是您实际最终任务的某个子集，或者与该最终任务密切相关。从本质上讲，无论您可能使用“眼球”的任何特殊方法，都应该系统化结果的健全性，保存您对每次评估的判断，以便它们可以针对迭代模型改进反复运行。

（我需要更多关于你的数据/项目和最终目标的信息来提出进一步的建议。）

Answer 2

评估 word2vec 模型的一种方法是开发一组“基本事实”单词。地面实况将代表理想情况下在向量空间中最接近的单词。例如，如果您的语料库与客户服务相关，那么理想情况下，“不满意”和“失望”的向量可能具有最小的欧几里德距离或最大的余弦相似度。

您为基本事实创建此表，也许它有 200 个配对单词。这 200 个单词是您的行业/主题中最重要的配对词。要评估哪种 word2vec 模型最好，只需计算每对的距离，执行 200 次，总结总距离，最小的总距离将是您的最佳模型。

与“眼球”方法相比，我更喜欢这种方法，无论这意味着什么。