小编Ant*_*tti的帖子

我有几百个文件夹,每个文件夹有成千上万的gzip文本文件,我试图将它们读入数据框中spark.read.csv().

在这些文件中,有些文件的长度为零,导致错误:

java.io.EOFException:输入流的意外结束

码:

df = spark.read.csv('s3n://my-bucket/folder*/logfiles*.log.gz',sep='\t',schema=schema)

我已经尝试设置mode到DROPMALFORMED与阅读sc.textFile(),但没有运气.

处理空的或损坏的gzip文件的最佳方法是什么？

18
推荐指数

1
解决办法

4386
查看次数

小编Ant_tti的帖子