Mar*_*kus 6 scala amazon-s3 apache-spark
我使用Spark 2.2.0.
我使用Spark来处理来自S3的数据集.它工作正常,直到我决定使用通配符,以便从文件夹的子文件夹中读取数据test
.
val path = "s3://data/test"
val spark = SparkSession
.builder()
.appName("Test")
.config("spark.sql.warehouse.dir", path)
.enableHiveSupport()
.getOrCreate()
import spark.implicits._
val myData = spark.read.parquet(path + "/*/")
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
17/11/20 18:54:21错误ApplicationMaster:用户类引发异常:org.apache.spark.sql.AnalysisException:路径不存在:hdfs://ip-111-112-11-65.eu-west -1.compute.internal:8020 /用户/ HDFS/S3 /数据/检验/ 20171120/*;
我使用以下命令执行上面的代码:
spark-submit --deploy-mode cluster --driver-memory 10g
Run Code Online (Sandbox Code Playgroud)
我不明白为什么Spark尝试从HDFS读取而不是从提供的路径读取.同一段代码可以正常使用另一条路径s3://data/test2/mytest.parquet
.
归档时间: |
|
查看次数: |
3082 次 |
最近记录: |