小编Vla*_*rin的帖子

如何使用 pyspark 从 s3 存储桶读取 csv 文件

我正在使用 Apache Spark 3.1.0 和 Python 3.9.6。我正在尝试从 AWS S3 存储桶读取 csv 文件，如下所示：

spark = SparkSession.builder.getOrCreate()
file = "s3://bucket/file.csv"

c = spark.read\
    .csv(file)\
    .count()

print(c)

Run Code Online (Sandbox Code Playgroud)

但我收到以下错误：

py4j.protocol.Py4JJavaError: An error occurred while calling o26.csv.
: org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "s3"

Run Code Online (Sandbox Code Playgroud)

我知道我需要添加特殊的库，但我没有找到任何具体的信息以及哪个版本。我尝试将类似的内容添加到我的代码中，但仍然遇到相同的错误：

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.3 pyspark-shell'

Run Code Online (Sandbox Code Playgroud)

我怎样才能解决这个问题？

amazon-s3 amazon-web-services apache-spark pyspark

Vla*_*rin

lucky-day

6
推荐指数

1
解决办法

6030
查看次数

标签统计

amazon-s3 ×1

amazon-web-services ×1

apache-spark ×1

pyspark ×1

如何使用 pyspark 从 s3 存储桶读取 csv 文件

标签 统计

小编Vla_rin的帖子

标签统计