AWS 胶水增量加载

Question

AWS 胶水增量加载

trp*_*trp 4 amazon-web-services apache-spark aws-glue

我有一个 S3 存储桶，每天都在其中转储文件。AWS 爬虫从这个位置爬取数据。在我的胶水作业运行的第一天，它会获取由 AWS 爬虫创建的表中存在的所有数据。例如，在第一天有三个文件。（即 file1.txt）。 txt,file2.txt,file3.txt) 和粘合作业在粘合作业执行的第一天处理这些文件。第二天，另外两个文件到达 S3 位置。现在在 S3 位置，这些是存在的文件。（即 file1 .txt,file2.txt,file3.txt,file4.txt,file5.txt。我能否以某种方式设计我的 AWS 爬虫，使其在作业执行的第二天只读取两个文件（file4.txt,file5 .txt)？否则我如何编写 AWS 粘合作业来识别这些增量文件？

Answer 1

var*_*nit 6

您需要为胶水启用 AWS 作业书签，它将能够保留已处理数据的状态。您可以参考下面的链接了解如何操作。

aws 胶水作业书签

归档时间：	7 年，1 月前
查看次数：	4267 次
最近记录：	6 年，9 月前