我有一个外部表,该表具有按日期划分的数据。数据每天都会更新,以获取当天的新文件集。这就是我在气流中执行作业的方式。
有没有一种方法可以调用上述命令以仅对当天添加的新文件进行操作,因此基本上如果我得到dt = 2018-06-21的文件,则只能更新该分区。
谢谢!
pyspark amazon-athena aws-glue
amazon-athena ×1
aws-glue ×1
pyspark ×1