Gee*_*Jan 6 amazon-s3 amazon-athena aws-glue
我根据 S3 存储桶的内容创建了一个AWS 粘合表。这允许我使用 AWS Athena 查询此 S3 存储桶中的数据。我定义了一个 AWS Glue 爬网程序并运行一次以自动确定数据的架构。这一切都很好用。
之后,所有新上传到 S3 存储桶的数据都会很好地反映在表中。(通过select count(*) ...在雅典娜中做一个。
那么为什么我需要定期运行(即:安排)AWS Glue Crawler?毕竟,如上所述,对 s3 存储桶的更新似乎已正确反映在表中。是更新表上的统计信息以便优化查询计划还是其他什么?
需要爬虫在数据目录中注册新的数据分区。例如,您的数据位于文件夹 /data 中并按日期 ( /data/year=2018/month=9/day=11/<data-files>) 分区。每天文件都会进入一个新文件夹(day=12等day=13)。为了使新数据可用于查询这些分区,必须在数据目录中注册,这可以通过运行爬网程序来完成。替代解决方案是在 Athena 中运行“MSCK REPAIR TABLE {table-name}”。
此外,爬虫可以检测模式的变化,并根据您的配置采取适当的操作。
| 归档时间: |
|
| 查看次数: |
1268 次 |
| 最近记录: |