在Apache Spark中读取HDF5文件

Joh*_*ohn 8 scala hdf5 apache-spark

有没有办法使用Scala版本的Spark读取HDF5文件?看起来它可以在Python中完成(通过Pyspark),但我找不到Scala的任何东西.

Tim*_*igo 5

没有InputFormat针对HDF5 的Hadoop 实现,因为它无法任意拆分:

将容器分成块有点像拿斧头并将其切成碎片,在此过程中盲目切断内容物和智能接线。结果是一团糟,因为HDFS块边界与内部HDF5货物布局或集装箱支撑结构之间没有对齐或关联。参考

同一站点讨论了将HDF5文件转换为Avro文件的可能性,从而使它们可以被Hadoop / Spark读取,但是您提到的PySpark示例可能是更简单的方法,但是如链接文档所述,有一个在Hadoop / Spark中有效和有效地使用HDF5文档需要解决的许多技术挑战。