Spark:从没有 _SUCCESS 文件的文件夹中读取时生成错误

Mik*_*son 5 exception apache-spark

我似乎找不到任何文档,但我想了解如何执行以下操作:

  • 我们有 Spark 管道,以标准格式将数据写入 S3,在其中写入多个文件part-...并将_SUCCESS文件写入文件夹。
  • 然后,我们有更多的 Spark 管道从这些 S3 存储桶中读取数据。
  • 如果管道尝试从没有该文件的文件夹中读取数据,我们希望管道自动抛出异常(失败)_SUCCESS
  • 我们可以创建某种用户创建的函数来管理此测试,但它似乎很常见,因此我认为如果找不到文件,必须有一种简单的 Spark 本机方法来生成此异常。

Spark 是否有这样的原生方法来触发该异常?

Nee*_*tha 2

我能想到的唯一方法是使用

boolean isExists=getFileSystem(spark.sparkContext().hadoopConfiguration())).exists(new Path("location of _SUCCESS file"));
Run Code Online (Sandbox Code Playgroud)

如果返回 false 则抛出异常。