使用 Spark / Scala 在镶木地板文件中存储和读取自定义元数据

Tom*_*ous 5 scala apache-spark parquet

我知道镶木地板文件存储元数据,但是否可以使用 Scala(最好)和 Spark将自定义元数据添加到镶木地板文件中?

这个想法是我在 Hadoop 存储中存储了许多类似的结构化镶木地板文件,但每个都有一个唯一命名的源(字符串字段,也作为镶木地板文件中的列出现),但是,我想访问这些信息而不创建实际读取镶木地板的开销,甚至可能从镶木地板中删除这个多余的列。

我真的不想将此信息放在文件名中,所以我现在最好的选择是读取每个镶木地板的第一行并将源列用作字符串字段。

它有效,但我只是想知道是否有更好的方法。