如何在 Cloud Dataproc 上安装自定义版本的 Apache Spark

Jam*_*mes 7 apache-spark google-cloud-platform google-cloud-dataproc

出于某种原因,我想安装与Google Cloud Dataproc上提供的版本不同的Apache Spark版本。如何安装 Spark 的自定义版本,同时保持与 Cloud Dataproc 工具的兼容性?

Jam*_*mes 7

一般来说,您应该能够在 Dataproc 上安装 Spark 的自定义版本,并保持与 Cloud Dataproc 工具(主要是 Cloud Dataproc 作业)的兼容性。

为此,您应该:

  1. 在用户主目录中安装spark/usr/local/lib/spark/opt/spark代替用户主目录
  2. 不要修改用户.bashrc
  3. 使用以下命令卸载 Cloud Dataproc 提供的 Spark 版本apt-get remove
  4. 指向所提供的二进制文件的符号链接/usr/local/bin/spark-submit(Cloud Dataproc 作业 API 需要此链接才能与新的 Spark 安装配合使用)
  5. 重复使用/etc/spark/confCloud Dataproc 提供的