火花Word2vec矢量数学

use*_*714 17 machine-learning apache-spark word2vec apache-spark-mllib

我一直在寻找的例子星火网站Word2Vec的:

val input = sc.textFile("text8").map(line => line.split(" ").toSeq)

val word2vec = new Word2Vec()

val model = word2vec.fit(input)

val synonyms = model.findSynonyms("country name here", 40)
Run Code Online (Sandbox Code Playgroud)

我如何做有趣的矢量,如国王 - 男人+女人=女王.我可以使用model.getVectors,但不知道如何继续进行.

des*_*aut 21

这是一个例子pyspark,我想直接移植到Scala - 关键是使用model.transform.

首先,我们按照示例训练模型:

from pyspark import SparkContext
from pyspark.mllib.feature import Word2Vec

sc = SparkContext()
inp = sc.textFile("text8_lines").map(lambda row: row.split(" "))

k = 220         # vector dimensionality
word2vec = Word2Vec().setVectorSize(k)
model = word2vec.fit(inp)
Run Code Online (Sandbox Code Playgroud)

k单词向量的维数 - 越高越好(默认值为100),但你需要内存,我可以用我的机器获得的最高数字是220.(编辑:相关出版物中的典型值在300之间)和1000)

在我们训练模型之后,我们可以定义一个简单的函数如下:

def getAnalogy(s, model):
    qry = model.transform(s[0]) - model.transform(s[1]) - model.transform(s[2])
    res = model.findSynonyms((-1)*qry,5) # return 5 "synonyms"
    res = [x[0] for x in res]
    for k in range(0,3):
        if s[k] in res:
            res.remove(s[k])
    return res[0]
Run Code Online (Sandbox Code Playgroud)

现在,这里有一些国家及其首都的例子:

s = ('france', 'paris', 'portugal')
getAnalogy(s, model)
# u'lisbon'

s = ('china', 'beijing', 'russia')
getAnalogy(s, model)
# u'moscow'

s = ('spain', 'madrid', 'greece')
getAnalogy(s, model)
# u'athens'

s = ('germany', 'berlin', 'portugal')
getAnalogy(s, model)
# u'lisbon'

s = ('japan', 'tokyo', 'sweden')
getAnalogy(s, model)    
# u'stockholm'

s = ('finland', 'helsinki', 'iran')
getAnalogy(s, model)
# u'tehran'

s = ('egypt', 'cairo', 'finland')
getAnalogy(s, model)
# u'helsinki'
Run Code Online (Sandbox Code Playgroud)

结果并不总是正确的 - 我会留给您进行实验,但是随着更多的训练数据和更高的矢量维度,它们会变得更好k.

for函数中的循环删除属于输入查询本身的条目,因为我注意到,正确的答案通常是返回列表中的第二个,第一个通常是输入项之一.

  • 1)``-1``只是为了保持``qry``顺序直观; 您可以更改此顺序并将其删除2)已经提供了有关``for``循环的注释; 尝试删除它并返回所有``res``(而不仅仅是``res [0]``以查明为什么它是必要的3)已经说过结果并不总是正确的,但是随着增加`` k``(论文至少使用``k = 300``); 而且,确切的结果取决于随机种子.**总而言之**,答案正是关于word2vec数学,这就是问题所在. (3认同)
  • 你能否在这里说明为什么乘以-1:res = model.findSynonyms(( - 1)*qry,5)#return 5"synonyms"同样,你能在getAnalogy函数中写一些关于for循环的注释吗? (2认同)
  • 具有相同数据集的示例未按预期工作.res = getAnalogy(s,model)print"结果是:"+ res o/p是:结果是:montpellier (2认同)
  • @ user3803714还要记住,出版物和演示中显示的结果总是精心挑选,即错误的结果根本不会显示(尽管它们确实存在). (2认同)

jxi*_*ion -3

这是伪代码。有关完整实现,请阅读文档:https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/mllib/feature/Word2VecModel.html

  1. w2v_map = model.getVectors() # this gives u a map {word:vec}
  2. my_vector = w2v_map.get('king') - w2v_map.get('man') + w2v_map.get('queen') # do vector algebra here
  3. most_similar_word_to_vector = model.findSynonyms(my_vector, 10) # they have an api to get synonyms for word, and one for vector

编辑:https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/mllib/feature/Word2VecModel.html#findSynonyms(org.apache.spark.mllib.linalg.Vector, %20int)

  • 不清楚如何进行矢量匹配。微风还是火花矢量?这是问题的关键组成部分...... (2认同)
  • public scala.Tuple2<String,Object> findSynonyms(Vector vector, int num) 您可以使用我列出的方法进行矢量匹配:https://spark.apache.org/docs/1.4.0/api/java/org/ apache/spark/mllib/feature/Word2VecModel.html#findSynonyms(org.apache.spark.mllib.linalg.Vector,%20int) (2认同)