相关疑难解决方法(0)

使用sc.textFile("s3n:// ...)从S3读取Spark文件

尝试使用spark-shell读取位于S3中的文件:

scala> val myRdd = sc.textFile("s3n://myBucket/myFile1.log")
lyrics: org.apache.spark.rdd.RDD[String] = s3n://myBucket/myFile1.log MappedRDD[55] at textFile at <console>:12

scala> myRdd.count
java.io.IOException: No FileSystem for scheme: s3n
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2607)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2614)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    ... etc ...

Run Code Online (Sandbox Code Playgroud)

该IOException异常:没有文件系统的方案:S3N与发生错误:

开发机器上的Spark 1.31或1.40(没有Hadoop库)
从Hortonworks Sandbox HDP v2.2.4(Hadoop 2.60)运行,它集成了Spark 1.2.1开箱即用
使用s3://或s3n:// scheme

这个错误的原因是什么？缺少依赖,缺少配置或误用sc.textFile()？

或者可能是因为这个帖子似乎暗示了影响Hadoop 2.60特有的Spark构建的错误.我将尝试Spark for Hadoop 2.40,看看这是否解决了这个问题.

hortonworks-data-platform apache-spark rdd

45
推荐指数

7
解决办法

9万
查看次数

如何通过Spark打开/流式传输.zip文件？

我有zip文件,我想打开'通过'Spark.我可以打开.gzip文件没有问题,因为Hadoops本机编解码器支持,但无法使用.zip文件.

有没有一种简单的方法来读取Spark代码中的zip文件？我还搜索了要添加到CompressionCodecFactory的zip编解码器实现,但到目前为止还没有成功.

hadoop apache-spark

7
推荐指数

3
解决办法

3万
查看次数

标签统计

apache-spark ×2

hortonworks-data-platform ×1

rdd ×1