小编Pie*_*rre的帖子

Pyspark - 加载训练有素的模型word2vec

我想用word2vec和PySpark来处理一些数据.我以前在Python中使用Google训练模型GoogleNews-vectors-negative300.bin和gensim.

有没有办法用Mllib/word2vec加载这个bin文件?或者将数据作为字典从Python {word:[vector]}(或.csv文件)导出然后将其加载到PySpark中是否有意义?

谢谢

python load gensim word2vec pyspark

7
推荐指数
1
解决办法
565
查看次数

使用PySpark在数据框架上应用sklearn训练的模型

我使用Python训练了一个随机森林算法,并希望将它应用于PySpark的大数据集.

我首先加载了训练有素的sklearn RF模型(使用joblib),将包含这些功能的数据加载到Spark数据帧中,然后添加一个包含预测的列,并使用用户定义的函数:

def predictClass(features):
    return rf.predict(features)
udfFunction = udf(predictClass, StringType())
new_dataframe = dataframe.withColumn('prediction', 
udfFunction('features'))
Run Code Online (Sandbox Code Playgroud)

它需要花费很多时间才能运行,是否有更有效的方法来做同样的事情?(不使用Spark ML)

python scikit-learn apache-spark pyspark

7
推荐指数
1
解决办法
1137
查看次数

引导期间在 AWS EMR 中设置环境变量

我在中添加了以下配置 spark-env

--configurations '[
     {
       "Classification": "spark-env",
       "Properties": {},
       "Configurations": [
           {
             "Classification": "export",
             "Properties": {
                 "MY_VARIABLE": "MY_VARIABLE"
             }
           }
       ]
     }
     ]'
Run Code Online (Sandbox Code Playgroud)

但是如果我只是echo $MY_VARIABLE在 bash 中做,我在终端中看不到它们。

基本上我想做的是以下内容:

  • 使用 AWS Lambda 安排创建 AWS EMR 集群(我将在其中设置所有环境变量,例如 git 凭证)
  • 在机器的引导中,安装一堆东西,包括 git
  • git clone 一个存储库(所以我需要使用存储在环境变量中的凭据)
  • 从此存储库中执行一些代码

bash amazon-emr

7
推荐指数
1
解决办法
2371
查看次数

AWS Lambda 每次都加载库吗?

我正在使用 AWS Lambda 创建一个处理数据的 Python 函数。我需要加载一个重型模型来运行我的脚本(经过训练的 word2vec 模型),例如在我的计算机上大约需要 5 分钟,但是一旦加载,函数的执行速度非常快。如果我使用 AWS Lambda,该模型是否仅加载一次,还是每次调用函数时都会加载?

python amazon-web-services aws-lambda

5
推荐指数
1
解决办法
1669
查看次数

使用PySpark删除Dataframe的嵌套列

我正在尝试使用pyspark在Spark数据框中删除一些嵌套的列。我为Scala找到了这个功能,它似乎完全可以满足我的要求,但是我对Scala并不熟悉,也不知道如何用Python编写它。

/sf/answers/2796066871/

我真的很感谢您的帮助。

谢谢,

dataframe apache-spark pyspark

5
推荐指数
3
解决办法
1787
查看次数