Spark Structured Streaming Writestream 到 Hive ORC 分区外部表

Question

Spark Structured Streaming Writestream 到 Hive ORC 分区外部表

irr*_*ser 6 hive apache-spark orc hive-partitions spark-structured-streaming

我正在尝试使用 Spark Structured Streaming - writeStreamAPI 写入外部分区 Hive 表。

CREATE EXTERNAL TABLE `XX`(
`a` string,
`b` string,
`b` string,
`happened` timestamp,
`processed` timestamp,
`d` string,
`e` string,
`f` string )
 PARTITIONED BY (
`year` int, `month` int, `day` int)      
 CLUSTERED BY (d)
INTO 6 BUCKETS
STORED AS ORC 
TBLPROPERTIES (
'orc.compress'='ZLIB',
'orc.compression.strategy'='SPEED',
'orc.create.index'='true',
'orc.encoding.strategy'='SPEED');

Run Code Online (Sandbox Code Playgroud)

在 Spark 代码中，

val hiveOrcWriter:   DataStreamWriter[Row] = event_stream
  .writeStream
  .outputMode("append")
  .format("orc")
  .partitionBy("year","month","day")
  //.option("compression", "zlib")
  .option("path", _table_loc)
  .option("checkpointLocation", _table_checkpoint)

Run Code Online (Sandbox Code Playgroud)

我看到在非分区表上，记录被插入到 Hive 中。但是，在使用分区表时，spark 作业不会失败或引发异常，但不会将记录插入到 Hive 表中。

感谢任何处理过类似问题的人的评论。

编辑：

刚刚发现 .orc 文件确实写入了 HDFS，具有正确的分区目录结构：例如。 /_table_loc/_table_name/year/month/day/part-0000-0123123.c000.snappy.orc

然而

select * from 'XX' limit 1; (or where year=2018)

Run Code Online (Sandbox Code Playgroud)

不返回任何行。

的InputFormat和OutputFormat为表“XX”是org.apache.hadoop.hive.ql.io.orc.OrcInputFormat和 org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat分别。

Answer 1

Shi*_*kou 3

结构化流中不提供开箱即用的此功能。在正常处理中，您将使用dataset.write.saveAsTable(table_name)，但该方法不可用。

在 HDFS 中处理和保存数据后，您可以手动更新分区（或使用按计划执行此操作的脚本）：

如果您使用蜂巢

MSCK REPAIR TABLE table_name

Run Code Online (Sandbox Code Playgroud)

如果你使用Impala

ALTER TABLE table_name RECOVER PARTITIONS

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，6 月前
查看次数：	1481 次
最近记录：	7 年，4 月前