相关疑难解决方法(0)

将pyspark中的Python模块传送到其他节点

如何将C编译模块(例如,python-Levenshtein)发送到Spark集群中的每个节点?

我知道我可以使用独立的Python脚本在Spark中发布Python文件(下面的示例代码):

from pyspark import SparkContext
sc = SparkContext("local", "App Name", pyFiles=['MyFile.py', 'MyOtherFile.py'])
Run Code Online (Sandbox Code Playgroud)

但是在没有".py"的情况下,我该如何运送模块?

python apache-spark

23
推荐指数
1
解决办法
2万
查看次数

在Spark执行器节点上安装Python依赖项的最简单方法?

我知道您可以使用Python Spark程序将各个文件作为依赖项发送.但是完全成熟的图书馆(例如numpy)呢?

Spark是否有办法使用提供的包管理器(例如pip)来安装库依赖项?或者这是否必须在执行Spark程序之前手动完成?

如果答案是手动的,那么在大量分布式节点上同步库(安装路径,版本等)的"最佳实践"方法是什么?

dependencies hadoop distributed-computing shared-libraries apache-spark

20
推荐指数
1
解决办法
1万
查看次数

pyspark addPyFile添加.py文件的zip,但仍未找到模块

使用addPyFiles()似乎不是添加desiered文件来激发作业节点(新兴的火花因此可能缺少一些基本的使用知识).

尝试使用pyspark运行脚本,并且发现导致某些模块未找到导致的错误.从未使用过火花,但其他帖子(来自问题包https://github.com/cerndb/dist-keras/issues/36#issuecomment-378918484/sf/answers/2784549001/)推荐压缩模块并通过添加到spark作业sparkContext.addPyFiles(mymodulefiles.zip),但仍然出现错误.相关的代码片段是......

from distkeras.trainers import *
from distkeras.predictors import *
from distkeras.transformers import *
from distkeras.evaluators import *
from distkeras.utils import *
Run Code Online (Sandbox Code Playgroud)

(我在这里导入的包可以在https://github.com/cerndb/dist-keras找到),

conf = SparkConf()
conf.set("spark.app.name", application_name)
conf.set("spark.master", master)  #master='yarn-client'
conf.set("spark.executor.cores", `num_cores`)
conf.set("spark.executor.instances", `num_executors`)
conf.set("spark.locality.wait", "0")
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

if using_spark_2:
    from pyspark.sql import SparkSession

    sc = SparkSession.builder.config(conf=conf) \
            .appName(application_name) \
            .getOrCreate()
    sc.sparkContext.addPyFile("/home/me/Downloads/distkeras.zip") # see https://github.com/cerndb/dist-keras/issues/36#issuecomment-378918484 and https://forums.databricks.com/answers/10207/view.html
    print sc.version
Run Code Online (Sandbox Code Playgroud)

(distkeras.zip是这个目录的压缩文件:https://github.com/cerndb/dist-keras/tree/master/distkeras),以及

transformer = OneHotTransformer(output_dim=nb_classes, input_col="label_index", output_col="label") …
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

11
推荐指数
2
解决办法
8080
查看次数