AWS 胶水增量加载

trp*_*trp 4 amazon-web-services apache-spark aws-glue

我有一个 S3 存储桶,每天都在其中转储文件。AWS 爬虫从这个位置爬取数据。在我的胶水作业运行的第一天,它会获取由 AWS 爬虫创建的表中存在的所有数据。例如,在第一天有三个文件。(即 file1.txt)。 txt,file2.txt,file3.txt) 和粘合作业在粘合作业执行的第一天处理这些文件。第二天,另外两个文件到达 S3 位置。现在在 S3 位置,这些是存在的文件。(即 file1 .txt,file2.txt,file3.txt,file4.txt,file5.txt。我能否以某种方式设计我的 AWS 爬虫,使其在作业执行的第二天只读取两个文件(file4.txt,file5 .txt)?否则我如何编写 AWS 粘合作业来识别这些增量文件?

var*_*nit 6

您需要为胶水启用 AWS 作业书签,它将能够保留已处理数据的状态。您可以参考下面的链接了解如何操作。

aws 胶水作业书签