定期调度 AWS Glue 爬网程序有什么用？运行一次似乎就足够了

Question

定期调度 AWS Glue 爬网程序有什么用？运行一次似乎就足够了

Gee*_*Jan 6 amazon-s3 amazon-athena aws-glue

我根据 S3 存储桶的内容创建了一个AWS 粘合表。这允许我使用 AWS Athena 查询此 S3 存储桶中的数据。我定义了一个 AWS Glue 爬网程序并运行一次以自动确定数据的架构。这一切都很好用。

之后，所有新上传到 S3 存储桶的数据都会很好地反映在表中。（通过select count(*) ...在雅典娜中做一个。

那么为什么我需要定期运行（即：安排）AWS Glue Crawler？毕竟，如上所述，对 s3 存储桶的更新似乎已正确反映在表中。是更新表上的统计信息以便优化查询计划还是其他什么？

Answer 1

需要爬虫在数据目录中注册新的数据分区。例如，您的数据位于文件夹 /data 中并按日期 ( /data/year=2018/month=9/day=11/<data-files>) 分区。每天文件都会进入一个新文件夹（day=12等day=13）。为了使新数据可用于查询这些分区，必须在数据目录中注册，这可以通过运行爬网程序来完成。替代解决方案是在 Athena 中运行“MSCK REPAIR TABLE {table-name}”。

此外，爬虫可以检测模式的变化，并根据您的配置采取适当的操作。

归档时间：	7 年，2 月前
查看次数：	1268 次
最近记录：	7 年，2 月前