小编Yu *_* Ni的帖子

雅典娜仅更新特定分区:MSCK REPAIR TABLE

我有一个外部表,该表具有按日期划分的数据。数据每天都会更新,以获取当天的新文件集。这就是我在气流中执行作业的方式。

  1. 获取文件。这将在S3上获得类似于dt = 2018-06-20的文件。
  2. 通过dt创建指向S3位置分区的外部表。
  3. 运行MSCK REPAIR TABLE命令以更新分区。

有没有一种方法可以调用上述命令以仅对当天添加的新文件进行操作,因此基本上如果我得到dt = 2018-06-21的文件,则只能更新该分区。

谢谢!

pyspark amazon-athena aws-glue

2
推荐指数
1
解决办法
559
查看次数

标签 统计

amazon-athena ×1

aws-glue ×1

pyspark ×1