Hadoop之上的流式框架支持ORC,镶木地板文件格式

vip*_*per 5 hadoop hive mapreduce hadoop-streaming

Hadoop流媒体是否支持ORC和镶木地板等新的柱状存储格式,或者Hadoop上是否有框架可以让您阅读这些格式?

小智 1

您可以使用 HCatalog 来读取 ORC 文件。https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

它为您提供了读取 ORC、文本、序列、RC 文件的抽象。我不确定那里是否支持镶木地板。尽管如此,如果这听起来不合理,您可以使用 Hive 代码库中的 ORC 记录读取器来读取 ORC 文件(ORCInputFormat、ORCOutputFormat)。