小编Pie*_*rre的帖子

Pyspark - 加载训练有素的模型word2vec

我想用word2vec和PySpark来处理一些数据.我以前在Python中使用Google训练模型GoogleNews-vectors-negative300.bin和gensim.

有没有办法用Mllib/word2vec加载这个bin文件？或者将数据作为字典从Python {word:[vector]}(或.csv文件)导出然后将其加载到PySpark中是否有意义？

谢谢

python load gensim word2vec pyspark

Pie*_*rre

2019 10-09

7
推荐指数

1
解决办法

565
查看次数

使用PySpark在数据框架上应用sklearn训练的模型

我使用Python训练了一个随机森林算法,并希望将它应用于PySpark的大数据集.

我首先加载了训练有素的sklearn RF模型(使用joblib),将包含这些功能的数据加载到Spark数据帧中,然后添加一个包含预测的列,并使用用户定义的函数:

def predictClass(features):
    return rf.predict(features)
udfFunction = udf(predictClass, StringType())
new_dataframe = dataframe.withColumn('prediction', 
udfFunction('features'))

Run Code Online (Sandbox Code Playgroud)

它需要花费很多时间才能运行,是否有更有效的方法来做同样的事情？(不使用Spark ML)

python scikit-learn apache-spark pyspark

Pie*_*rre

2017 05-31

7
推荐指数

1
解决办法

1137
查看次数

引导期间在 AWS EMR 中设置环境变量

我在中添加了以下配置 spark-env

--configurations '[
     {
       "Classification": "spark-env",
       "Properties": {},
       "Configurations": [
           {
             "Classification": "export",
             "Properties": {
                 "MY_VARIABLE": "MY_VARIABLE"
             }
           }
       ]
     }
     ]'

Run Code Online (Sandbox Code Playgroud)

但是如果我只是echo $MY_VARIABLE在 bash 中做，我在终端中看不到它们。

基本上我想做的是以下内容：

使用 AWS Lambda 安排创建 AWS EMR 集群（我将在其中设置所有环境变量，例如 git 凭证）
在机器的引导中，安装一堆东西，包括 git
git clone 一个存储库（所以我需要使用存储在环境变量中的凭据）
从此存储库中执行一些代码

bash amazon-emr

Pie*_*rre

2020 08-23

7
推荐指数

1
解决办法

2371
查看次数

AWS Lambda 每次都加载库吗？

我正在使用 AWS Lambda 创建一个处理数据的 Python 函数。我需要加载一个重型模型来运行我的脚本（经过训练的 word2vec 模型），例如在我的计算机上大约需要 5 分钟，但是一旦加载，函数的执行速度非常快。如果我使用 AWS Lambda，该模型是否仅加载一次，还是每次调用函数时都会加载？

python amazon-web-services aws-lambda

Pie*_*rre

2023 11-30

5
推荐指数

1
解决办法

1669
查看次数