标签: word2vec

如何使用gensim的word2vec模型和python计算句子相似度

根据Gensim Word2Vec,我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度.

例如

trained_model.similarity('woman', 'man') 
0.73723527

Run Code Online (Sandbox Code Playgroud)

但是,word2vec模型无法预测句子相似性.我发现在gensim中具有句子相似性的LSI模型,但是,似乎不能与word2vec模型结合.我所拥有的每个句子的语料库长度不是很长(短于10个单词).那么,有没有简单的方法来实现目标？

python gensim word2vec

zhf*_*fkt

2016 04-12

113
推荐指数

10
解决办法

8万
查看次数

word2vec:负面采样(外行术语)？

我正在阅读下面的论文,我遇到了一些麻烦,理解负抽样的概念.

http://arxiv.org/pdf/1402.3722v1.pdf

有人可以帮忙吗？

nlp machine-learning word2vec

And*_*y K

lucky-day

72
推荐指数

3
解决办法

3万
查看次数

如何从句子中的标记word2vec获取句子的向量

我使用word2vec从大型文档生成了一个标记列表的向量.给定一个句子,是否可以从句子中的标记向量中获取句子的向量.

word2vec

tri*_*tic

lucky-day

64
推荐指数

7
解决办法

5万
查看次数

从word2vec网站我可以下载GoogleNews-vectors-negative300.bin.gz..bin文件(大约3.4GB)是一种对我没用的二进制格式.Tomas Mikolov 向我们保证:"将二进制格式转换为文本格式应该相当简单(尽管这需要更多的磁盘空间).检查距离工具中的代码,读取二进制文件相当简单." 不幸的是,我不太了解C http://word2vec.googlecode.com/svn/trunk/distance.c.

据说gensim也可以做到这一点,但我发现的所有教程似乎都是关于从文本转换而不是其他方式.

有人可以建议修改C代码或gensim发出文本的说明吗？

c python gensim word2vec

Gle*_*enn

2014 12-06

60
推荐指数

5
解决办法

4万
查看次数

Doc2vec:如何获取文档向量

如何使用Doc2vec获取两个文本文档的文档向量？我是新手,所以如果有人能指出我正确的方向/帮助我一些教程会很有帮助

我正在使用gensim.

doc1=["This is a sentence","This is another sentence"]
documents1=[doc.strip().split(" ") for doc in doc1 ]
model = doc2vec.Doc2Vec(documents1, size = 100, window = 300, min_count = 10, workers=4)

Run Code Online (Sandbox Code Playgroud)

我明白了

AttributeError:'list'对象没有属性'words'

每当我跑这个.

python gensim word2vec

bee*_*502

2018 12-16

51
推荐指数

3
解决办法

6万
查看次数

如何将句子或文档转换为向量？

我们有用于将单词转换为向量的模型(例如word2vec模型).是否存在将句子/文档转换为向量的类似模型,可能使用为单个单词学习的向量？

nlp vector word2vec

Sah*_*hil

lucky-day

49
推荐指数

4
解决办法

3万
查看次数

如何使用Gensim doc2vec与预先训练的单词向量？

我最近遇到了Gensim的doc2vec.如何使用doc2vec预训练的单词向量(例如在word2vec原始网站中找到)？

或者是doc2vec从用于段落矢量训练的相同句子中获取单词向量？

谢谢.

python nlp gensim word2vec

Ste*_*ios

lucky-day

36
推荐指数

4
解决办法

3万
查看次数

如何使用word2vec通过给出2个单词来计算相似距离？

Word2vec是一个开源工具,用于计算Google提供的单词距离.它可以通过输入单词并根据相似性输出排序的单词列表来使用.例如

输入:

france

Run Code Online (Sandbox Code Playgroud)

输出:

            Word       Cosine distance

            spain              0.678515
          belgium              0.665923
      netherlands              0.652428
            italy              0.633130
      switzerland              0.622323
       luxembourg              0.610033
         portugal              0.577154
           russia              0.571507
          germany              0.563291
        catalonia              0.534176

Run Code Online (Sandbox Code Playgroud)

但是,我需要做的是通过给出2个单词来计算相似距离.如果我给'法国'和'西班牙',我怎么能得到分数0.678515而不通过给'法国'阅读整个单词列表.

word2vec

zhf*_*fkt

2019 02-12

33
推荐指数

3
解决办法

6万
查看次数