标签: word2vec

SOURCE_EMBEDDING_KEY = "embedding_attention_seq2seq/RNN/EmbeddingWrapper/embedding"
TARGET_EMBEDDING_KEY = "embedding_attention_seq2seq/embedding_attention_decoder/embedding"


def inject_pretrained_word2vec(session, word2vec_path, input_size, dict_dir, source_vocab_size, target_vocab_size):
  word2vec_model = word2vec.load(word2vec_path, encoding="latin-1")
  print("w2v model created!")
  session.run(tf.initialize_all_variables())

  assign_w2v_pretrained_vectors(session, word2vec_model, SOURCE_EMBEDDING_KEY, source_vocab_path, source_vocab_size)
  assign_w2v_pretrained_vectors(session, word2vec_model, TARGET_EMBEDDING_KEY, target_vocab_path, target_vocab_size)


def assign_w2v_pretrained_vectors(session, word2vec_model, embedding_key, vocab_path, vocab_size):
  vectors_variable = [v for v in tf.trainable_variables() if embedding_key in v.name]
  if len(vectors_variable) != 1:
      print("Word vector variable not found or too many. key: " + embedding_key)
      print("Existing embedding trainable variables:")
      print([v.name for v in tf.trainable_variables() …

Run Code Online (Sandbox Code Playgroud)

python word2vec tensorflow

Vla*_*nyk

2017 05-23

7
推荐指数

1
解决办法

2610
查看次数

t-SNE的并行版本

是否有任何带有t-SNE算法并行版本的Python库？或者存在多核/并行t-SNE算法？

我正在尝试使用t-SNE减少词汇表中所有word2vecs的维度(300d - > 2d).

问题:词汇量的大小约为130000,并且为它们进行t-SNE需要很长时间.

python parallel-processing multiprocessing dimensionality-reduction word2vec

Ant*_*eev

lucky-day

7
推荐指数

1
解决办法

3544
查看次数

如何在Tensorflow中使用预训练的Word2Vec模型

我有一个Word2Vec受过训练的模型Gensim.我如何使用它Tensorflow的Word Embeddings.我不想在Tensorflow中从头开始训练嵌入.有人可以告诉我如何使用一些示例代码吗？

python gensim word2vec tensorflow word-embedding

nee*_*eel

lucky-day

7
推荐指数

1
解决办法

5072
查看次数

Pyspark - 加载训练有素的模型word2vec

我想用word2vec和PySpark来处理一些数据.我以前在Python中使用Google训练模型GoogleNews-vectors-negative300.bin和gensim.

有没有办法用Mllib/word2vec加载这个bin文件？或者将数据作为字典从Python {word:[vector]}(或.csv文件)导出然后将其加载到PySpark中是否有意义？

谢谢

python load gensim word2vec pyspark

Pie*_*rre

2019 10-09

7
推荐指数

1
解决办法

565
查看次数

没有为Word2Vec加载C扩展名

我重新安装了gensim pkg和Cython,但它一直显示这个警告,有人知道吗？我使用的是Python 3.6,PyCharm Linux Mint.

UserWarning:没有为Word2Vec加载C扩展,训练会很慢.安装C编译器并重新安装gensim以进行快速培训.warnings.warn("没有为Word2Vec加载C扩展,训练会很慢."

当我创建或加载模型时,它也会显示此行.
正在使用慢速版本的gensim.models.doc2vec

python python-3.x gensim word2vec

作者

lucky-day

7
推荐指数

1
解决办法

5821
查看次数

Gensim FastText 计算训练损失

我正在fastText使用gensim.models.fasttext. 但是，我似乎找不到一种方法来计算迭代损失以进行记录。如果我查看gensim.models.word2vec，它具有get_latest_training_loss允许您打印训练损失的方法。有没有其他选择，或者根本不可能？

python nlp gensim word2vec fasttext

Har*_*awi

lucky-day

7
推荐指数

0
解决办法

704
查看次数

如何评估 Word2Vec 模型

嗨，有我自己的语料库，我在上面训练了几个 Word2Vec 模型。对他们进行相互评估并选择最好的一种的最佳方法是什么？（显然不是手动 - 我正在寻找各种措施）。

值得注意的是，嵌入是针对项目而不是单词，因此我不能使用任何现有的基准。

谢谢！

python nlp embedding word2vec word-embedding

ore*_*isp

lucky-day

7
推荐指数

2
解决办法

5009
查看次数

当 Word2Vec 使用点积相似度训练时，为什么要在 Word2Vec 中使用余弦相似度

根据我在 stackoverflow 上找到的几篇文章（例如，为什么 word2Vec 使用余弦相似度？），通常的做法是在我们训练好 word2vec（CBOW 或 Skip-gram）模型后计算两个词向量之间的余弦相似度。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似性分数进行训练的。一个证据是我们训练后得到的词向量的范数实际上是有意义的。那么为什么人们在计算两个词之间的相似度时仍然使用余弦相似度而不是点积呢？

nlp dot-product cosine-similarity word2vec word-embedding

Fre*_*ang

lucky-day

7
推荐指数

1
解决办法

1442
查看次数