Joh*_*ohn 8 scala hdf5 apache-spark
有没有办法使用Scala版本的Spark读取HDF5文件?看起来它可以在Python中完成(通过Pyspark),但我找不到Scala的任何东西.
Tim*_*igo 5
没有InputFormat针对HDF5 的Hadoop 实现,因为它无法任意拆分:
InputFormat
将容器分成块有点像拿斧头并将其切成碎片,在此过程中盲目切断内容物和智能接线。结果是一团糟,因为HDFS块边界与内部HDF5货物布局或集装箱支撑结构之间没有对齐或关联。参考
同一站点讨论了将HDF5文件转换为Avro文件的可能性,从而使它们可以被Hadoop / Spark读取,但是您提到的PySpark示例可能是更简单的方法,但是如链接文档所述,有一个在Hadoop / Spark中有效和有效地使用HDF5文档需要解决的许多技术挑战。
归档时间:
10 年,8 月 前
查看次数:
6049 次
最近记录:
6 年,7 月 前