Yur*_*ruk 9 amazon-web-services aws-glue
AWS Glue 文档明确指出爬虫从源(JDBS 或 s3)抓取元数据信息并填充数据目录(创建/更新数据库和相应的表)。
但是,如果我们知道没有方案/分区更改,我们是否需要定期运行爬虫来检测源中的新数据(即 s3 上的新对象,db 表中的新行)并不清楚。
那么,是否需要在运行 ETL 作业之前运行爬虫才能获取新数据?
AWS Glue 会自动检测 S3 存储桶中的新数据,只要它在您现有的文件夹(分区)中即可。
如果数据添加到新文件夹(分区),您需要使用MSCK REPAIR TABLE mytable;.
| 归档时间: |
|
| 查看次数: |
4402 次 |
| 最近记录: |