小编Dan*_*ez 的帖子

如何从Spark Dataproc检查Google Storage中是否存在文件?

我以为Google Storage连接器将允许直接查询GS,就好像它是Dataproc中Spark中的HDFS一样,但是看起来以下内容不起作用(来自Spark Shell):

scala> import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.FileSystem

scala> import org.apache.hadoop.fs.Path
import org.apache.hadoop.fs.Path

scala> FileSystem.get(sc.hadoopConfiguration).exists(new Path("gs://samplebucket/file"))
java.lang.IllegalArgumentException: Wrong FS: gs://samplebucket/file, expected: hdfs://dataprocmaster-m
Run Code Online (Sandbox Code Playgroud)

是否可以仅使用Hadoop API访问Google存储文件?

hadoop apache-spark google-cloud-dataproc

2
推荐指数
2
解决办法
951
查看次数