如何解决org.apache.spark.sql.AnalysisException:Path不存在

Mar*_*kus 6 scala amazon-s3 apache-spark

我使用Spark 2.2.0.

我使用Spark来处理来自S3的数据集.它工作正常,直到我决定使用通配符,以便从文件夹的子文件夹中读取数据test.

val path = "s3://data/test"
val spark = SparkSession
  .builder()
  .appName("Test")
  .config("spark.sql.warehouse.dir", path)
  .enableHiveSupport()
  .getOrCreate()

import spark.implicits._    
val myData = spark.read.parquet(path + "/*/")

Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

17/11/20 18:54:21错误ApplicationMaster:用户类引发异常:org.apache.spark.sql.AnalysisException:路径不存在:hdfs://ip-111-112-11-65.eu-west -1.compute.internal:8020 /用户/ HDFS/S3 /数据/检验/ 20171120/*;

我使用以下命令执行上面的代码:

spark-submit --deploy-mode cluster --driver-memory 10g

Run Code Online (Sandbox Code Playgroud)

我不明白为什么Spark尝试从HDFS读取而不是从提供的路径读取.同一段代码可以正常使用另一条路径s3://data/test2/mytest.parquet.

归档时间：	7 年，11 月前
查看次数：	3082 次
最近记录：	7 年，11 月前