标签: word2vec

如何通过word2vec获取反义词？

我目前正在使用Python中的gensim开发word2vec模型,并希望编写一个函数来帮助我找到给定单词的反义词和同义词.例如:反义词("sad")="happy"同义词("upset")="enraged"

有没有办法在word2vec中这样做？

python gensim word2vec

Sal*_*der

lucky-day

11
推荐指数

1
解决办法

3493
查看次数

为什么在gensim word2vec中创建了多个模型文件？

当我尝试创建一个word2vec模型(带负抽样的skipgram)时,我收到3个文件作为输出,如下所示.

word2vec (File)
word2vec.syn1nef.npy (NPY file)
word2vec.wv.syn0.npy (NPY file)

Run Code Online (Sandbox Code Playgroud)

我只是担心为什么会发生这种情况,因为我以前在word2vec中的测试示例我只收到一个模型(没有npy文件).

请帮我.

python gensim word2vec word-embedding

作者

2017 11-14

11
推荐指数

1
解决办法

2081
查看次数

在 python 中得到“init() 得到了一个意外的关键字参数‘document’”这个错误我正在使用 Word2Vec 和 gensim

我正在使用 Word2vec 和 gensim 进行项目，

model = gensim.models.Word2Vec(
    documents = 'userDataFile.txt',
    size=150,
    window=10,
    min_count=2,
    workers=10)
model = gensim.model.Word2Vec.load("word2vec.model")
model.train(documents, total_examples=len(documents), epochs=10)
model.save("word2vec.model")

Run Code Online (Sandbox Code Playgroud)

这是我目前拥有的部分代码，我在下面收到此错误

Traceback (most recent call last):
File "C:\Users\User\Desktop\InstaSubProject\templates\HashtagData.py", line

37, in <module>
workers=10)
TypeError: __init__() got an unexpected keyword argument 'documents'

Run Code Online (Sandbox Code Playgroud)

UserDataFile.txt 是我存储从网络抓取中获得的输出结果数据的文件。

我不太确定我需要在这里修复什么。

先感谢您！

python gensim word2vec

dub*_*boo

2021 02-12

11
推荐指数

3
解决办法

9086
查看次数

错误:'utf8'编解码器无法解码位置0中的字节0x80:无效的起始字节

我正在尝试执行以下kaggle assignmnet.我使用gensim包来使用word2vec.我能够创建模型并将其存储到磁盘.但是当我尝试加载文件时,我收到以下错误.

    -HP-dx2280-MT-GR541AV:~$ python prog_w2v.py 
Traceback (most recent call last):
  File "prog_w2v.py", line 7, in <module>
    models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
  File "/usr/local/lib/python2.7/dist-packages/gensim/models/word2vec.py", line 579, in load_word2vec_format
    header = utils.to_unicode(fin.readline())
  File "/usr/local/lib/python2.7/dist-packages/gensim/utils.py", line 190, in any2unicode
    return unicode(text, encoding, errors=errors)
  File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

Run Code Online (Sandbox Code Playgroud)

我发现了类似的问题.但我无法解决问题.我的prog_w2v.py如下.

import gensim
import time
start = time.time()    
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True) 
end = time.time()   
print …

Run Code Online (Sandbox Code Playgroud)

python character-encoding gensim word2vec kaggle

use*_*983

2017 03-03

10
推荐指数

4
解决办法

1万
查看次数

TensorFlow嵌入查找

我正在尝试学习如何使用TensorFlow构建用于语音识别的RNN.首先,我想尝试一下TensorFlow页面TF-RNN上的一些示例模型

根据建议,我花了一些时间来理解如何通过word2vec模型代码的基本版本将单词ID嵌入到密集表示(Vector Representation)中.我对tf.nn.embedding_lookup实际做了什么有了解,直到我实际遇到与TF-RNN中的二维数组一起使用的相同函数ptb_word_lm.py,当它再也没有意义时.

我`tf.nn.embedding_lookup`做了什么:

给定一个2-d数组params和一个1-d数组ids,函数tf.nn.embedding_lookup从params中获取行,对应于给定的索引ids,其中包含返回的输出维度.

我感到困惑的是:

当尝试使用相同的params和2-d数组时ids,tf.nn.embedding_lookup返回3-d数组,而不是2-d,我不明白为什么.

我查阅了嵌入查找的手册,但我仍然发现很难理解分区是如何工作的,以及返回的结果.我最近尝试了一些简单的例子,tf.nn.embedding_lookup它似乎每次都返回不同的值.这种行为是由于分区涉及的随机性吗？

请帮助我理解它是如何tf.nn.embedding_lookup工作的,以及为什么在两者中使用word2vec_basic.py,ptb_word_lm.py即使用它们的目的是什么？

word2vec language-model tensorflow recurrent-neural-network

VM_*_*_AI

2016 06-21

10
推荐指数

1
解决办法

1万
查看次数

在Keras实现word2vec

我想在keras中实现word2vec算法,这可能吗？我该如何适应模型？我应该使用自定义丢失功能吗？

nlp theano word2vec deep-learning keras

And*_*rás

2017 12-21

10
推荐指数

1
解决办法

7979
查看次数

如何在我自己的语料库上训练GloVe算法

我试着遵循这个.
但是有些我浪费了很多时间而没有任何用处.
我只想GloVe在我自己的语料库(~900Mb corpus.txt文件)上训练模型.我下载了上面链接中提供的文件并使用它编译cygwin(在编辑demo.sh文件并将其更改为VOCAB_FILE=corpus.txt.我应该CORPUS=text8保持不变吗？)输出为:

cooccurrence.bin
cooccurrence.shuf.bin
text8
corpus.txt
vectors.txt

我怎样才能将这些文件作为GloVe模型加载到python上？

stanford-nlp gensim word2vec glove

Cod*_*dir

2018 12-05

10
推荐指数

3
解决办法

6246
查看次数

如何使用 word2vec 进行文本分类

我想使用 word2vec 执行文本分类。我得到了词向量。

ls = []
sentences = lines.split(".")
for i in sentences:
    ls.append(i.split())
model = Word2Vec(ls, min_count=1, size = 4)
words = list(model.wv.vocab)
print(words)
vectors = []
for word in words:
    vectors.append(model[word].tolist())
data = np.array(vectors)
data

Run Code Online (Sandbox Code Playgroud)

输出：

array([[ 0.00933912,  0.07960335, -0.04559333,  0.10600036],
       [ 0.10576613,  0.07267512, -0.10718666, -0.00804013],
       [ 0.09459028, -0.09901826, -0.07074171, -0.12022413],
       [-0.09893986,  0.01500741, -0.04796079, -0.04447284],
       [ 0.04403428, -0.07966098, -0.06460238, -0.07369237],
       [ 0.09352681, -0.03864434, -0.01743148,  0.11251986],.....])

Run Code Online (Sandbox Code Playgroud)

我如何进行分类（产品和非产品）？

python-3.x gensim text-classification word2vec

Shu*_*wal

lucky-day

10
推荐指数

2
解决办法

2万
查看次数