小编Shi*_*eta的帖子

Spark-scala:在读取之前检查S3目录是否存在

如何在读取之前检查S3目录是否存在？

我正在尝试这个,如这里给出的http://bigdatatech.taleia.software/2015/12/21/check-if-exists-a-amazon-s3-path-from-apache-spark/

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.conf.Configuration
val fs = FileSystem.get(new Configuration())
fs.listStatus(new Path("s3://s3bucket/2017/10/31/*/*/"))

Run Code Online (Sandbox Code Playgroud)

但得到这个错误 Wrong FS: s3://s3bucket/2017/10/31/*/*, expected: hdfs://ip-172-31-55-167.ec2.internal:8020

我可以使用它的确切路径检查确切的文件是否存在,但是我必须使用像这里"s3:// s3bucket/2017/10/31/*/*"这样不支持的通配符.

检查了这个StackOverflow问题:Spark:只在路径存在时读取文件,但它与我的用例无关.

scala amazon-s3 amazon-web-services apache-spark

Shi*_*eta

2017 11-07

7
推荐指数

1
解决办法

6091
查看次数

标签统计

amazon-s3 ×1

amazon-web-services ×1

apache-spark ×1

scala ×1

Spark-scala:在读取之前检查S3目录是否存在

标签 统计

小编Shi_eta的帖子

标签统计