使用 spark-on-k8s-operator 在 Kubernetes 上运行 Pyspark 的依赖问题

Question

使用 spark-on-k8s-operator 在 Kubernetes 上运行 Pyspark 的依赖问题

den*_*ise 6 dependency-management docker apache-spark kubernetes pyspark

我花了几天时间试图找出我在 Kubernetes 上运行的 (Py)Spark 遇到的依赖问题。我正在使用spark-on-k8s-operator和 Spark 的 Google Cloud 连接器。

当我尝试使用下面的 .yaml 文件提交没有依赖项的sparkctl create sparkjob.yaml ...Spark作业时，它就像一个魅力。

apiVersion: "sparkoperator.k8s.io/v1beta2"
kind: SparkApplication
metadata:
  name: spark-job
  namespace: my-namespace
spec:
  type: Python
  pythonVersion: "3"
  hadoopConf:
    "fs.gs.impl": "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem"
    "fs.AbstractFileSystem.gs.impl": "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS"
    "fs.gs.project.id": "our-project-id"
    "fs.gs.system.bucket": "gcs-bucket-name"
    "google.cloud.auth.service.account.enable": "true"
    "google.cloud.auth.service.account.json.keyfile": "/mnt/secrets/keyfile.json"
  mode: cluster
  image: "image-registry/spark-base-image"
  imagePullPolicy: Always
  mainApplicationFile: ./sparkjob.py
  deps:
    jars:
      - https://repo1.maven.org/maven2/org/apache/spark/spark-sql-kafka-0-10_2.11/2.4.5/spark-sql-kafka-0-10_2.11-2.4.5.jar
  sparkVersion: "2.4.5"
  restartPolicy:
    type: OnFailure
    onFailureRetries: 3
    onFailureRetryInterval: 10
    onSubmissionFailureRetries: 5
    onSubmissionFailureRetryInterval: 20
  driver:
    cores: 1
    coreLimit: "1200m"
    memory: "512m"
    labels:
      version: 2.4.5
    serviceAccount: spark-operator-spark
    secrets:
    - name: "keyfile"
      path: "/mnt/secrets"
      secretType: GCPServiceAccount
    envVars:
      GCS_PROJECT_ID: our-project-id
  executor:
    cores: 1
    instances: 1
    memory: "512m"
    labels:
      version: 2.4.5
    secrets:
    - name: "keyfile"
      path: "/mnt/secrets"
      secretType: GCPServiceAccount
    envVars:
      GCS_PROJECT_ID: our-project-id

Run Code Online (Sandbox Code Playgroud)

Docker 镜像spark-base-image是使用 Dockerfile 构建的

FROM gcr.io/spark-operator/spark-py:v2.4.5

RUN rm $SPARK_HOME/jars/guava-14.0.1.jar
ADD https://repo1.maven.org/maven2/com/google/guava/guava/28.0-jre/guava-28.0-jre.jar $SPARK_HOME/jars

ADD https://repo1.maven.org/maven2/com/google/cloud/bigdataoss/gcs-connector/hadoop2-2.0.1/gcs-connector-hadoop2-2.0.1-shaded.jar $SPARK_HOME/jars

ENTRYPOINT [ "/opt/entrypoint.sh" ]

Run Code Online (Sandbox Code Playgroud)

主应用程序文件在提交应用程序时上传到 GCS，随后从那里获取并在启动应用程序时复制到驱动程序 pod 中。每当我想提供我自己的 Python 模块deps.zip作为依赖项以便能够在我的主应用程序文件中使用它时，问题就开始了sparkjob.py。

这是我迄今为止尝试过的：

1

将以下行添加到 sparkjob.yaml 中的 spark.deps

pyFiles:
   - ./deps.zip

Run Code Online (Sandbox Code Playgroud)

这导致操作员甚至无法提交错误的 Spark 应用程序

java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found

Run Code Online (Sandbox Code Playgroud)

./deps.zip已成功与主应用程序文件一起上传到 GCS 存储桶，但是虽然可以从 GCS 成功获取主应用程序文件（我在没有上述定义的依赖项的作业日志中看到了这一点），./deps.zip但无法从那里获取。我还尝试将 gcs-connector jar 显式添加到 spark.deps.jars 列表中 - 没有任何变化。

2

我./deps.zip通过添加COPY ./deps.zip /mnt/到上述 Dockerfile 并通过在 sparkjob.yaml 中添加依赖项，添加到用于启动驱动程序和执行程序 Pod的基本 docker 映像

pyFiles:
    - local:///mnt/deps.zip

Run Code Online (Sandbox Code Playgroud)

这次可以提交 spark 作业并启动驱动程序 pod，但是file:/mnt/deps.zip not found在初始化 Spark 上下文时出现错误我也尝试ENV SPARK_EXTRA_CLASSPATH=/mnt/在 Dockerfile 中额外设置但没有任何成功。我什至尝试/mnt/使用卷挂载将整个目录显式挂载到驱动程序和执行程序 pod 中，但这也不起作用。

编辑：

我的解决方法 (2)，将依赖项添加到 Docker 映像并ENV SPARK_EXTRA_CLASSPATH=/mnt/在 Dockerfile 中进行设置实际上有效！结果标签没有更新，我一直在使用旧版本的 Docker 镜像。呃。

我仍然不知道为什么通过 gcs-connector 的（更优雅的）解决方案 1 不起作用，但它可能与MountVolume.Setup failed for volume "spark-conf-volume"有关

Answer 1

Olu*_*ule 0

使用 Python 依赖项的 Google Cloud Storage 路径，因为它们已上传到那里。

spec:
  deps:
    pyFiles:
      - gs://gcs-bucket-name/deps.zip

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，6 月前
查看次数：	1124 次
最近记录：	4 年，6 月前