小编Shi*_*eta的帖子

Spark-scala:在读取之前检查S3目录是否存在

如何在读取之前检查S3目录是否存在?

我正在尝试这个,如这里给出的http://bigdatatech.taleia.software/2015/12/21/check-if-exists-a-amazon-s3-path-from-apache-spark/

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.conf.Configuration
val fs = FileSystem.get(new Configuration())
fs.listStatus(new Path("s3://s3bucket/2017/10/31/*/*/"))
Run Code Online (Sandbox Code Playgroud)

但得到这个错误 Wrong FS: s3://s3bucket/2017/10/31/*/*, expected: hdfs://ip-172-31-55-167.ec2.internal:8020

我可以使用它的确切路径检查确切的文件是否存在,但是我必须使用像这里"s3:// s3bucket/2017/10/31/*/*"这样不支持的通配符.

检查了这个StackOverflow问题:Spark:只在路径存在时读取文件,但它与我的用例无关.

scala amazon-s3 amazon-web-services apache-spark

7
推荐指数
1
解决办法
6091
查看次数