AWS Glue：对于新内容，我真的需要爬虫吗？

Question

我从 AWS Glue 文档中了解到，爬虫将帮助抓取和发现新数据。但是，我注意到，一旦我爬过一次，如果有新数据进入 S3，例如从 Athena 查询数据目录时，实际上已经发现了数据。那么，我可以说每次添加新数据时我都不需要爬虫来爬行，除非有新模式？

事实上，如果我知道文件的架构，我就可以手动创建表，而无需爬虫，对吗？

Answer 1

如果数据按某些键（放置在子文件夹中，例如/data/year=2018/month=11/day=2）进行分区，那么您需要一个爬虫/day=3在数据目录中注册新添加的分区（即），以便能够通过 Athena 查询它。

但是，如果数据未分区或进入已注册的分区，则无需运行爬虫。

或者运行爬虫程序，您可以通过运行Athena 命令MSCK REPAIR TABLE <table>或手动注册来发现和注册新分区。

在 Data Catalog 中创建表的最简单方法是运行爬虫。但是，如果您了解架构并且有耐心编写CREATE TABLEAthena 查询或通过AWS Glue 控制台填写所有字段，那么您也可以这样做。