相关疑难解决方法(0)

使用sc.textFile("s3n:// ...)从S3读取Spark文件

尝试使用spark-shell读取位于S3中的文件:

scala> val myRdd = sc.textFile("s3n://myBucket/myFile1.log")
lyrics: org.apache.spark.rdd.RDD[String] = s3n://myBucket/myFile1.log MappedRDD[55] at textFile at <console>:12

scala> myRdd.count
java.io.IOException: No FileSystem for scheme: s3n
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2607)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2614)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    ... etc ...

Run Code Online (Sandbox Code Playgroud)

该IOException异常:没有文件系统的方案:S3N与发生错误:

开发机器上的Spark 1.31或1.40(没有Hadoop库)
从Hortonworks Sandbox HDP v2.2.4(Hadoop 2.60)运行,它集成了Spark 1.2.1开箱即用
使用s3://或s3n:// scheme

这个错误的原因是什么？缺少依赖,缺少配置或误用sc.textFile()？

或者可能是因为这个帖子似乎暗示了影响Hadoop 2.60特有的Spark构建的错误.我将尝试Spark for Hadoop 2.40,看看这是否解决了这个问题.

hortonworks-data-platform apache-spark rdd

Pol*_*ase

2016 02-09

45
推荐指数

7
解决办法

9万
查看次数

没有用于方案的文件系统：带有pyspark的s3

我正在尝试使用Spark从S3读取txt文件，但出现此错误：

No FileSystem for scheme: s3

Run Code Online (Sandbox Code Playgroud)

这是我的代码：

from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("first")
sc = SparkContext(conf=conf)
data = sc.textFile("s3://"+AWS_ACCESS_KEY+":" + AWS_SECRET_KEY + "@/aaa/aaa/aaa.txt")

header = data.first()

Run Code Online (Sandbox Code Playgroud)

这是完整的回溯：

An error occurred while calling o25.partitions.
: java.io.IOException: No FileSystem for scheme: s3
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:258)
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:194)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
    at scala.Option.getOrElse(Option.scala:121) …

Run Code Online (Sandbox Code Playgroud)

python python-2.7 apache-spark

Fil*_*ano

lucky-day

7
推荐指数

3
解决办法

1万
查看次数

Apache Spark读取S3:无法pickle thread.lock对象

所以我希望我的Spark应用程序能够从亚马逊的S3中读取一些文本.我写了以下简单的脚本:

import boto3
s3_client = boto3.client('s3')
text_keys = ["key1.txt", "key2.txt"]
data = sc.parallelize(text_keys).flatMap(lambda key: s3_client.get_object(Bucket="my_bucket", Key=key)['Body'].read().decode('utf-8'))

Run Code Online (Sandbox Code Playgroud)

当我这样做时,data.collect我收到以下错误:

TypeError: can't pickle thread.lock objects

Run Code Online (Sandbox Code Playgroud)

我似乎没有在网上找到任何帮助.也许有人设法解决了上述问题？

python multithreading amazon-s3 apache-spark pyspark

use*_*968

2019 04-06

6
推荐指数

1
解决办法

2791
查看次数

标签统计

apache-spark ×3

python ×2

amazon-s3 ×1

hortonworks-data-platform ×1

multithreading ×1

pyspark ×1

python-2.7 ×1

rdd ×1

使用sc.textFile("s3n:// ...)从S3读取Spark文件

没有用于方案的文件系统：带有pyspark的s3

Apache Spark读取S3:无法pickle thread.lock对象

标签 统计

标签统计