我目前正在使用Python中的gensim开发word2vec模型,并希望编写一个函数来帮助我找到给定单词的反义词和同义词.例如:反义词("sad")="happy"同义词("upset")="enraged"
有没有办法在word2vec中这样做?
当我尝试创建一个word2vec模型(带负抽样的skipgram)时,我收到3个文件作为输出,如下所示.
word2vec (File)
word2vec.syn1nef.npy (NPY file)
word2vec.wv.syn0.npy (NPY file)
Run Code Online (Sandbox Code Playgroud)
我只是担心为什么会发生这种情况,因为我以前在word2vec中的测试示例我只收到一个模型(没有npy文件).
请帮我.
我正在使用 Word2vec 和 gensim 进行项目,
model = gensim.models.Word2Vec(
documents = 'userDataFile.txt',
size=150,
window=10,
min_count=2,
workers=10)
model = gensim.model.Word2Vec.load("word2vec.model")
model.train(documents, total_examples=len(documents), epochs=10)
model.save("word2vec.model")
Run Code Online (Sandbox Code Playgroud)
这是我目前拥有的部分代码,我在下面收到此错误
Run Code Online (Sandbox Code Playgroud)Traceback (most recent call last): File "C:\Users\User\Desktop\InstaSubProject\templates\HashtagData.py", line 37, in <module> workers=10) TypeError: __init__() got an unexpected keyword argument 'documents'
UserDataFile.txt 是我存储从网络抓取中获得的输出结果数据的文件。
我不太确定我需要在这里修复什么。
先感谢您 !
我正在尝试执行以下kaggle assignmnet.我使用gensim包来使用word2vec.我能够创建模型并将其存储到磁盘.但是当我尝试加载文件时,我收到以下错误.
-HP-dx2280-MT-GR541AV:~$ python prog_w2v.py
Traceback (most recent call last):
File "prog_w2v.py", line 7, in <module>
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
File "/usr/local/lib/python2.7/dist-packages/gensim/models/word2vec.py", line 579, in load_word2vec_format
header = utils.to_unicode(fin.readline())
File "/usr/local/lib/python2.7/dist-packages/gensim/utils.py", line 190, in any2unicode
return unicode(text, encoding, errors=errors)
File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte
Run Code Online (Sandbox Code Playgroud)
我发现了类似的问题.但我无法解决问题.我的prog_w2v.py如下.
import gensim
import time
start = time.time()
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
end = time.time()
print …Run Code Online (Sandbox Code Playgroud) 我正在尝试学习如何使用TensorFlow构建用于语音识别的RNN.首先,我想尝试一下TensorFlow页面TF-RNN上的一些示例模型
根据建议,我花了一些时间来理解如何通过word2vec模型代码的基本版本将单词ID嵌入到密集表示(Vector Representation)中.我对tf.nn.embedding_lookup实际做了什么有了解,直到我实际遇到与TF-RNN中的 二维数组一起使用的相同函数ptb_word_lm.py,当它再也没有意义时.
tf.nn.embedding_lookup做了什么:给定一个2-d数组params和一个1-d数组ids,函数tf.nn.embedding_lookup从params中获取行,对应于给定的索引ids,其中包含返回的输出维度.
当尝试使用相同的params和2-d数组时ids,tf.nn.embedding_lookup返回3-d数组,而不是2-d,我不明白为什么.
我查阅了嵌入查找的手册,但我仍然发现很难理解分区是如何工作的,以及返回的结果.我最近尝试了一些简单的例子,tf.nn.embedding_lookup它似乎每次都返回不同的值.这种行为是由于分区涉及的随机性吗?
请帮助我理解它是如何tf.nn.embedding_lookup工作的,以及为什么在两者中使用word2vec_basic.py,ptb_word_lm.py即使用它们的目的是什么?
我想在keras中实现word2vec算法,这可能吗?我该如何适应模型?我应该使用自定义丢失功能吗?
我试着遵循这个.
但是有些我浪费了很多时间而没有任何用处.
我只想GloVe在我自己的语料库(~900Mb corpus.txt文件)上训练模型.我下载了上面链接中提供的文件并使用它编译cygwin(在编辑demo.sh文件并将其更改为VOCAB_FILE=corpus.txt.我应该CORPUS=text8保持不变吗?)输出为:
我怎样才能将这些文件作为GloVe模型加载到python上?
我想使用 word2vec 执行文本分类。我得到了词向量。
ls = []
sentences = lines.split(".")
for i in sentences:
ls.append(i.split())
model = Word2Vec(ls, min_count=1, size = 4)
words = list(model.wv.vocab)
print(words)
vectors = []
for word in words:
vectors.append(model[word].tolist())
data = np.array(vectors)
data
Run Code Online (Sandbox Code Playgroud)
输出:
array([[ 0.00933912, 0.07960335, -0.04559333, 0.10600036],
[ 0.10576613, 0.07267512, -0.10718666, -0.00804013],
[ 0.09459028, -0.09901826, -0.07074171, -0.12022413],
[-0.09893986, 0.01500741, -0.04796079, -0.04447284],
[ 0.04403428, -0.07966098, -0.06460238, -0.07369237],
[ 0.09352681, -0.03864434, -0.01743148, 0.11251986],.....])
Run Code Online (Sandbox Code Playgroud)
我如何进行分类(产品和非产品)?
word2vec 和手套有什么区别?这两种方法都是训练词嵌入的方法吗?如果是,那么我们如何同时使用两者?
我想使用Word2Vec模型在Google Cloud Platform(GCP)上的Google Compute服务器上分析一些文本。
但是,来自https://mccormickml.com/2016/04/12/googles-pretrained-word2vec-model-in-python/的未压缩word2vec模型超过3.5GB,手动下载并上传需要花费时间它到一个云实例。
是否可以在不自行上传的情况下访问Google Compute服务器上的此(或任何其他)经过预先训练的Word2Vec模型?
python nlp google-compute-engine google-cloud-platform word2vec
word2vec ×10
gensim ×6
python ×5
nlp ×3
glove ×2
kaggle ×1
keras ×1
python-3.x ×1
stanford-nlp ×1
tensorflow ×1
theano ×1