ModuleNotFoundError，因为PySpark序列化程序无法找到库文件夹

Question

ModuleNotFoundError，因为PySpark序列化程序无法找到库文件夹

Gol*_*ngi 5 python apache-spark pyspark google-cloud-dataproc

我有以下文件夹结构

 - libfolder
    - lib1.py
    - lib2.py
 - main.py

Run Code Online (Sandbox Code Playgroud)

main.py呼叫libfolder.lib1.py，然后呼叫libfolder.lib2.py和其他。

在本地计算机上一切正常，但是将其部署到Dataproc后，出现以下错误

File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 455, in loads
return pickle.loads(obj, encoding=encoding)
ModuleNotFoundError: No module named 'libfolder'

Run Code Online (Sandbox Code Playgroud)

我已将文件夹压缩xyz.zip并运行以下命令：

spark-submit --py-files=xyz.zip main.py

Run Code Online (Sandbox Code Playgroud)

序列化程序无法找到的位置libfolder。我打包文件夹的方式有问题吗？

此问题与此类似，但未得到解决。

编辑：回答伊戈尔的问题

zip文件的unzip -l返回以下内容

 - libfolder
    - lib1.py
    - lib2.py
 - main.py

Run Code Online (Sandbox Code Playgroud)

在main.py中，使用此import语句调用lib1.py

from libfolder import lib1

Run Code Online (Sandbox Code Playgroud)

Answer 1

tix*_*tix 2

这对我有用：

$ cat main.py

from pyspark import SparkContext, SparkConf

from subpkg import sub

conf = SparkConf().setAppName("Shell Count")
sc = SparkContext(conf = conf)

text_file = sc.textFile("file:///etc/passwd")
counts = text_file.map(lambda line: sub.map(line)) \
    .map(lambda shell: (shell, 1)) \
    .reduceByKey(lambda a, b: sub.reduce(a, b))

counts.saveAsTextFile("hdfs:///count5.txt")

$ cat subpkg/sub.py

def map(line):
  return line.split(":")[6]

def reduce(a, b):
  return a + b

$ unzip -l /tmp/deps.zip 
Archive:  /tmp/deps.zip
  Length      Date    Time    Name
---------  ---------- -----   ----
        0  2019-01-07 14:22   subpkg/
        0  2019-01-07 13:51   subpkg/__init__.py
       79  2019-01-07 14:13   subpkg/sub.py
---------                     -------
       79                     3 files


$ gcloud dataproc jobs submit pyspark --cluster test-cluster main.py --py-files deps.zip
Job [1f0f15108a4149c5942f49513ce04440] submitted.
Waiting for job output...
Hello world!
Job [1f0f15108a4149c5942f49513ce04440] finished successfully.

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，10 月前
查看次数：	531 次
最近记录：	6 年，9 月前