小编Amr*_*Jha的帖子

Spark Parquet 读取错误：java.io.EOFException：到达流的末尾，还有 XXXXX 个字节可供读取

在 Spark 中读取镶木地板文件时，如果您遇到以下问题。

应用程序 > 线程“main”org.apache.spark.SparkException 中的异常：由于阶段失败而中止作业：阶段 2.0 中的任务 0 失败 4 次，最近失败：阶段 2.0 中丢失任务 0.3（TID 44、10.23.5.196、 executor 2): java.io.EOFException: 到达流的末尾，还有 193212 个字节可以读取 App > at org.apache.parquet.io.DelegatingSeekableInputStream.readFully(DelegatingSeekableInputStream.java:104) App > at org.apache.parquet .io.DelegatingSeekableInputStream.readFullyHeapBuffer(DelegatingSeekableInputStream.java:127) 应用程序 > 在 org.apache.parquet.io.DelegatingSeekableInputStream.readFully(DelegatingSeekableInputStream.java:91) 应用程序 > 在 org.apache.parquet.hadoop.List.ParquetunkFileReader (ParquetFileReader.java:1174) 应用程序 > 在 org.apache.parquet.hadoop.ParquetFileReader。readNextRowGroup(ParquetFileReader.java:805) App > 在 org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.checkEndOfRowGroup(VectorizedParquetRecordReader.java:301) App > 在 org.apache.spark.sql.execution.datasources. parquet.VectorizedParquetRecordReader.nextBatch(VectorizedParquetRecordReader.java:256) App > at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextKeyValue(VectorizedParquetRecordReader.java:159) App > at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextKeyValue(VectorizedParquetRecordReader.java:159) App > at org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextKeyValue(VectorizedParquetRecordReader.java:159) execution.datasources.RecordReaderIterator.hasNext(RecordReaderIterator.scala:39) App > at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:124) App > at org.apache。 spark.sql.execution.datasources.FileScanRDD$$anon$1.nextIterator(FileScanRDD.scala:215)spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.checkEndOfRowGroup(VectorizedParquetRecordReader.java:301) App > 在 org.apache.spark.sql.execution.datasources.parquet.VectorizedParquetRecordReader.nextBatch(VectorizedParquetRecordReader.java:301) …

apache-spark parquet apache-spark-sql

Amr*_*Jha

2020 01-24

5
推荐指数

2
解决办法

1736
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

parquet ×1

Spark Parquet 读取错误：java.io.EOFException：到达流的末尾，还有 XXXXX 个字节可供读取

标签 统计

小编Amr_Jha的帖子

标签统计