Yu *_* Ni 2 pyspark amazon-athena aws-glue
我有一个外部表,该表具有按日期划分的数据。数据每天都会更新,以获取当天的新文件集。这就是我在气流中执行作业的方式。
有没有一种方法可以调用上述命令以仅对当天添加的新文件进行操作,因此基本上如果我得到dt = 2018-06-21的文件,则只能更新该分区。
谢谢!
您可以手动添加分区-这是Athena手册中的示例:
ALTER TABLE orders ADD
PARTITION (dt = '2016-05-14', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_14_May_2016'
PARTITION (dt = '2016-05-15', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_15_May_2016';
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
559 次 |
| 最近记录: |