mad*_*ram 7 nlp neural-network word2vec
如何创建单词向量?我使用一个热键来创建单词向量,但它非常庞大,并不适用于类似的语义单词.所以我听说过使用神经网络发现单词相似性和单词向量的单词向量.所以我想知道如何生成这个向量(算法)或好材料来开始创建单词向量?
小智 9
字矢量或所谓的分布式表示到目前为止已有很长的历史,可能源于S. Bengio的工作(Bengio,Y.,Ducharme,R.,&Vincent,P.(2001).一种神经概率语言模型. NIPS.)他获得了单词向量作为训练神经网络语言模型的副产品.
许多研究表明,这些向量确实捕获了单词之间的语义关系(例如参见http://research.microsoft.com/pubs/206777/338_Paper.pdf).Collobert等人的这篇重要论文(http://arxiv.org/abs/1103.0398)也是理解单词向量,获取和使用方式的一个很好的起点.
除了word2vec,还有很多方法可以获得它们.示例包括Collobert等人(http://ronan.collobert.com/senna/)的SENNA嵌入,T. Mikolov的RNN嵌入,可以使用RNNToolkit计算(http://www.fit.vutbr.cz/~imikolov)/rnnlm /)等等.对于英语,可以从这些网站下载现成的嵌入.word2vec确实使用了skip-gram模型(不是神经网络模型).用于计算单词表示的另一个快速代码是GloVe(http://www-nlp.stanford.edu/projects/glove/).无论深层神经网络对于获得良好的嵌入是否必不可少,这都是一个悬而未决的问题.
根据您的应用程序,您可能更喜欢使用不同类型的单词向量,因此最好尝试几种流行的算法,看看哪种方法更适合您.
| 归档时间: |
|
| 查看次数: |
10437 次 |
| 最近记录: |