什么是单词矢量维度

Nip*_*pun 3 vector neural-network

我目前是深度学习的业余爱好者,正在本网站上阅读word2vector https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors

对于CBOW或skipgram模型,我可以看到单词向量的维度是300,词汇量大小是15000.我在前面的文章中读到的是,我们可以对向量中的单词进行硬编码.所以我猜单词向量维度应该等于词汇量大小或者以不同的方式提出问题,这个单词维度是什么以及如何将其可视化.你如何看待这个维度?

Aer*_*rin 5

"Word Vector Dimension"是您使用培训文档训练的向量的维度.从技术上讲,你可以选择任何尺寸,如10,100,300甚至1000.行业标准是300-500,因为我们已经尝试了不同的尺寸(300,400,500,...... 1000等),但没有注意到300-400后显着的性能提升.(这也取决于你的训练数据.)听起来,更多维度意味着更重的计算.但是,如果我们将维度设置得太低,则没有太多的向量空间来捕获整个培训文档包含的信息.

如何形象化?

你不能轻易地想象300维向量,可能可视化300维向量对你来说并不是很有用.我们能做的就是将这些向量投射到二维空间,这是我们最熟悉的空间,也是我们可以轻松理解的空间.

你的最后一句话所以我猜单词矢量维度应该等于词汇量大小错误!词汇大小为171,476个单词(英语单词总数)!单词向量维度(大多数为300-500.你不想训练10亿维向量,对吗?)是你提前决定训练数据的向量的大小.我的视频(无耻插件)将帮助您理解重要的单词矢量概念:AI与最佳