小编Cod*_*dir的帖子

如何在我自己的语料库上训练GloVe算法

我试着遵循这个.
但是有些我浪费了很多时间而没有任何用处.
我只想GloVe在我自己的语料库(~900Mb corpus.txt文件)上训练模型.我下载了上面链接中提供的文件并使用它编译cygwin(在编辑demo.sh文件并将其更改为VOCAB_FILE=corpus.txt.我应该CORPUS=text8保持不变吗?)输出为:

  1. cooccurrence.bin
  2. cooccurrence.shuf.bin
  3. text8
  4. corpus.txt
  5. vectors.txt

我怎样才能将这些文件作为GloVe模型加载到python上?

stanford-nlp gensim word2vec glove

10
推荐指数
3
解决办法
6246
查看次数

使用 Embedding Projector 可视化 Word2Vec 模型

使用 TensorFlow 的嵌入投影仪可视化 Word2Vec 模型的最佳方法是什么?有没有办法将 Word2Vec 模型的向量导出为 Embedding Projector 期望的格式?或者张量流中有一个内置函数吗?

谢谢!

nlp data-visualization gensim word2vec tensorflow

3
推荐指数
1
解决办法
1185
查看次数