Spark kubernetes集群模式下无法读取本地文件

har*_*ena 1 scala file apache-spark kubernetes server

我在 Spark 集群模式程序中读取存储在系统中的文件时遇到问题。它给我一个错误“找不到文件”,但文件存在于定义的位置。请给我一些建议,以便我可以读取本地使用 kubernetes 在 Spark 集群中创建文件。

Ali*_*ikh 5

在 Kubernetes 上提交 Spark 时,无法引用机器上的本地文件。

适合您的情况的可用解决方案可能是:

  • 使用资源暂存服务器。在 Apache Spark 代码库的主分支中不可用,因此整个集成都在您这边。
  • 将您的文件放置到 http/hdfs 可访问的位置:参考文档
  • 将您的文件放入 Spark Docker 映像并将其引用为local:///path/to/your-file.jar

如果您正在运行像 Minikube 这样的本地 Kubernetes 集群,您还可以使用您感兴趣的文件创建 Kubernetes 卷并将其挂载到 Spark Pod:请参阅文档。请务必将该卷安装到驱动程序和执行程序。