Word2Vec - 向向量表示添加约束

Ali*_*Ali 5 nlp stanford-nlp word2vec

我正在尝试将预先训练的 Google 新闻 word2vec 模型适应我的特定领域。对于我正在查看的领域,已知某些单词彼此相似,因此在理想的世界中,这些单词的 Word2Vec 表示应该代表它。我知道我可以在特定领域数据的语料库上训练预训练模型来更新向量。

但是,如果我确定某些单词非常相似并且应该放在一起,那么我是否可以将该约束合并到 word2vec 模型中?在数学上,我想在 word2vec 的损失函数中添加一个术语,如果我知道相似的两个在向量空间中的位置彼此不靠近,则该函数会提供惩罚。有没有人对如何实现这一点有建议?这是否需要我解压 word2vec 模型,或者是否有办法将附加项添加到损失函数中?

Fra*_*urt 3

一种方法是采用预先训练的 Google 新闻 word2vec 并使用此“改造”工具:

Faruqui、Manaal、Jesse Dodge、Sujay K. Jauhar、Chris Dyer、Eduard Hovy 和 Noah A. Smith。“将词向量改造为语义词典。” arXiv 预印本 arXiv:1411.4166 (2014)。https://arxiv.org/abs/1411.4166

本文提出了一种通过鼓励链接词具有相似的向量表示来使用语义词典中的关系信息来细化向量空间表示的方法,并且它不对输入向量的构造方式做出任何假设。

该代码可在https://github.com/mfaruqui/retrofitting上找到,并且使用起来很简单(我个人将其用于https://arxiv.org/abs/1607.02802)。