Hadoop ORC文件 - 工作原理 - 如何获取元数据

Question

我是ORC文件的新手.我经历了很多博客,但没有得到明确的理解.请帮助并澄清以下问题.

Answer 1

嘿，我无法帮助您解决所有问题，但我会尝试一下

您可以使用 filedump 实用程序读出 ORC 文件的元数据，请参阅此处
我对模式演化非常不确定，但据我所知 ORC 不支持演化。
ORC 索引存储最小值和最大值之和，因此如果您的数据完全非结构化，您可能仍然需要读取大量数据。但自从 ORC 的最新版本以来，您可以启用额外的布隆过滤器，它在行组消除方面更加准确。也许这也有帮助orc-user 邮件列表
ORC 为每一列提供了一个索引，但这只是一个轻量级索引。您可以将有关最小/最大和总和的信息存储在文件页脚、条带页脚中的数字列上，并且默认情况下每 10000 行存储一次。所以它不需要那么多空间
如果您将表存储在 Orc Fileformat 中，Hive 将使用特定的 ORC Recordreader 从列中提取行。列式存储的优点是不必读取整行