Pyspark - 加载训练有素的模型word2vec

Question

Pyspark - 加载训练有素的模型word2vec

Pie*_*rre 7 python load gensim word2vec pyspark

我想用word2vec和PySpark来处理一些数据.我以前在Python中使用Google训练模型GoogleNews-vectors-negative300.bin和gensim.

有没有办法用Mllib/word2vec加载这个bin文件？或者将数据作为字典从Python {word:[vector]}(或.csv文件)导出然后将其加载到PySpark中是否有意义？

谢谢

Answer 1

小智 2

Spark 3.x 支持二进制导入：

spark.read.format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data")

Run Code Online (Sandbox Code Playgroud)

然而，这需要处理二进制数据。因此，建议导出gensim ：

# Save gensim model
filename = "stored_model.csv" 
trained_model.save(filename)

Run Code Online (Sandbox Code Playgroud)

然后在pyspark中加载模型：

df = spark.read.load("stored_model.csv",
                     format="csv", 
                     sep=";", 
                     inferSchema="true", 
                     header="true")

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，9 月前
查看次数：	565 次
最近记录：	6 年，3 月前