trp*_*trp 4 amazon-web-services apache-spark aws-glue
我有一个 S3 存储桶,每天都在其中转储文件。AWS 爬虫从这个位置爬取数据。在我的胶水作业运行的第一天,它会获取由 AWS 爬虫创建的表中存在的所有数据。例如,在第一天有三个文件。(即 file1.txt)。 txt,file2.txt,file3.txt) 和粘合作业在粘合作业执行的第一天处理这些文件。第二天,另外两个文件到达 S3 位置。现在在 S3 位置,这些是存在的文件。(即 file1 .txt,file2.txt,file3.txt,file4.txt,file5.txt。我能否以某种方式设计我的 AWS 爬虫,使其在作业执行的第二天只读取两个文件(file4.txt,file5 .txt)?否则我如何编写 AWS 粘合作业来识别这些增量文件?
| 归档时间: |
|
| 查看次数: |
4267 次 |
| 最近记录: |