在Apache Spark中读取HDF5文件

Question

有没有办法使用Scala版本的Spark读取HDF5文件？看起来它可以在Python中完成(通过Pyspark),但我找不到Scala的任何东西.

Answer 1

没有InputFormat针对HDF5 的Hadoop 实现，因为它无法任意拆分：

将容器分成块有点像拿斧头并将其切成碎片，在此过程中盲目切断内容物和智能接线。结果是一团糟，因为HDFS块边界与内部HDF5货物布局或集装箱支撑结构之间没有对齐或关联。参考

同一站点讨论了将HDF5文件转换为Avro文件的可能性，从而使它们可以被Hadoop / Spark读取，但是您提到的PySpark示例可能是更简单的方法，但是如链接文档所述，有一个在Hadoop / Spark中有效和有效地使用HDF5文档需要解决的许多技术挑战。