如何附加ORC文件

Sac*_*ach 5 java hadoop hive orc

我们需要appednd ORC文件.我试着谷歌但没有结果.另外org.apache.hadoop.hive.ql.io.orc.WriterImplORC没有追加API.无论如何都要附加ORC文件?(更具体地说,使用JAVA)

Sam*_*ter 4

ORC数据文件被细分为独立的带;每个条带都在单个原子步骤中创建。详细信息请参见官方文档。

我不相信您可以直接即时附加到现有文件。这意味着在写入时发生作业崩溃时会留下损坏的条带(因此是损坏的文件)。

但是你可以

  • orc.stripe.size每个减速器创建一个新的 ORC 数据文件(其中将包含 1..N 个条带,具体取决于实际数据量与属性)
  • 然后使用Hive V0.14 及更高版本“连接”这些数据文件以及现有文件