在哪里可以下载预训练的 word2vec 地图?

gut*_*cha 7 python nlp word2vec word-embedding

我一直在学习 NLP 模型并遇到了词嵌入,并看到了可以通过计算词的点积等来查看词之间的关系的示例。

我正在寻找的只是一本字典,将单词映射到它们的代表向量,这样我就可以使用它。我知道我可以构建一个模型并训练它并创建我自己的地图,但我只想将已经训练好的地图作为 python 变量。

小智 7

您可以尝试使用来自各种新闻文章的约 1000 亿个单词进行训练的 Google word2vec模型。

\n

关于词向量的一个有趣的事实,w2v(king) - w2v(man) + w2v(woman) \xe2\x89\x88 w2v(queen)

\n

  • 您可以使用支持词向量的“gensim”等库专门加载该文件,使用其“KeyedVectors.load_word2vec_format()”方法:https://radimrehurek.com/gensim/models/keyedvectors.html –“KeyedVectors” object 的行为类似于 Python `dict`,尽管出于性能原因它并不是字面上的 `dict`。 (2认同)
  • 如果包含 300 万个单词/短语的“GoogleNews”集太大而不方便使用 – 因为它需要 ~3+GB 的 RAM 来加载,并且需要更多 GB 来执行“most_similar()”操作 – 您可以使用“limit”参数加载子集。EG:`goog_wordvecs = KeyedVectors.load_word2vec_format(' GoogleNews-vectors-negative300.bin', binary=True, limit=100000)`仅加载前100,000个单词——不到所有单词的4%,但仍然足以覆盖最常用的词。 (2认同)