我有几百个文件夹,每个文件夹有成千上万的gzip文本文件,我试图将它们读入数据框中spark.read.csv().
在这些文件中,有些文件的长度为零,导致错误:
java.io.EOFException:输入流的意外结束
码:
df = spark.read.csv('s3n://my-bucket/folder*/logfiles*.log.gz',sep='\t',schema=schema)
Run Code Online (Sandbox Code Playgroud)
我已经尝试设置mode到DROPMALFORMED与阅读sc.textFile(),但没有运气.
处理空的或损坏的gzip文件的最佳方法是什么?