Tur*_*nov 8 nlp machine-learning embedding regularized word2vec
具有大量参数的ML模型将倾向于过度拟合(因为它们具有大的变化).在我看来,word2vec就是这样一个模型.减少模型方差的方法之一是应用正则化技术,这对于其他嵌入模型是非常常见的,例如矩阵分解.但是,基本版本word2vec没有任何正规化部分.是否有一个原因?
这是一个有趣的问题.
我会说Word2Vec中的过度拟合没有多大意义,因为单词嵌入的目标是尽可能准确地匹配单词出现分布.Word2Vec不是为了学习训练词汇之外的任何东西而设计的,即概括,而是为了近似文本语料库定义的一个分布.从这个意义上说,Word2Vec实际上是试图完全适应,所以它不能过度适应.
如果您的词汇量很小,则可以计算共生矩阵并找到嵌入(给定大小)的确切全局最小值,即得到完美拟合并定义最佳上下文词模型对于这种固定的语言.