在执行 ETL 作业之前是否需要运行 AWS Glue 爬网程序来检测新数据?

Yur*_*ruk 9 amazon-web-services aws-glue

AWS Glue 文档明确指出爬虫从源(JDBS 或 s3)抓取元数据信息并填充数据目录(创建/更新数据库和相应的表)。

但是,如果我们知道没有方案/分区更改,我们是否需要定期运行爬虫来检测源中的新数据(即 s3 上的新对象,db 表中的新行)并不清楚。

那么,是否需要在运行 ETL 作业之前运行爬虫才能获取新数据?

Rob*_*inL 6

AWS Glue 会自动检测 S3 存储桶中的新数据,只要它在您现有的文件夹(分区)中即可。

如果数据添加到新文件夹(分区),您需要使用MSCK REPAIR TABLE mytable;.