小编Ant*_*tti的帖子

Spark - 阅读时如何跳过或忽略空的gzip文件

我有几百个文件夹,每个文件夹有成千上万的gzip文本文件,我试图将它们读入数据框中spark.read.csv().

在这些文件中,有些文件的长度为零,导致错误:

java.io.EOFException:输入流的意外结束

码:

df = spark.read.csv('s3n://my-bucket/folder*/logfiles*.log.gz',sep='\t',schema=schema)
Run Code Online (Sandbox Code Playgroud)

我已经尝试设置modeDROPMALFORMED与阅读sc.textFile(),但没有运气.

处理空的或损坏的gzip文件的最佳方法是什么?

pyspark spark-dataframe pyspark-sql

18
推荐指数
1
解决办法
4386
查看次数

标签 统计

pyspark ×1

pyspark-sql ×1

spark-dataframe ×1