使用 Spark / Scala 在镶木地板文件中存储和读取自定义元数据

Tom*_*ous 5 scala apache-spark parquet

我知道镶木地板文件存储元数据，但是否可以使用 Scala（最好）和 Spark将自定义元数据添加到镶木地板文件中？

这个想法是我在 Hadoop 存储中存储了许多类似的结构化镶木地板文件，但每个都有一个唯一命名的源（字符串字段，也作为镶木地板文件中的列出现），但是，我想访问这些信息而不创建实际读取镶木地板的开销，甚至可能从镶木地板中删除这个多余的列。

我真的不想将此信息放在文件名中，所以我现在最好的选择是读取每个镶木地板的第一行并将源列用作字符串字段。

它有效，但我只是想知道是否有更好的方法。

归档时间：	8 年，9 月前
查看次数：	1726 次
最近记录：	8 年，9 月前

如何在sbt中看到依赖树？ 75

Spark:如何在Dataframe API中翻译count(distinct(value)) 27

无法导入scala.reflect.runtime.universe 18

初学者:Scala 2.10中的Scala类型别名？ 15

为什么foldRight和reduceRight不是尾递归？ 10

如何在单个Netbeans项目中混合基于JVM的语言？ 8

-Xlint：unsound-match标志在Scala中做什么？ 8

为了理解:如何顺序运行期货 6

空值和countDistinct与spark数据框 6

使用spark和scala将文件写入S3非常慢.有什么更好的方法来优化它？ 5

如果__name__ =="__ main__":怎么办？ 5545

如何列出目录的所有文件？ 3474

如何删除子模块？ 3366

如何测试私有函数或具有私有方法,字段或内部类的类？ 2593

如何修复android.os.NetworkOnMainThreadException？ 2308

如何在JavaScript中清空数组？ 2198

如何在Python中获取列表中的元素数量？ 1846

如何在jQuery Ajax调用之后管理重定向请求 1319

为什么使用Redux而不是Facebook Flux？ 1126

如何在Ruby on Rails中获取当前的绝对URL？ 1030