Jie*_*eng 6 amazon-web-services aws-glue
我从 AWS Glue 文档中了解到,爬虫将帮助抓取和发现新数据。但是,我注意到,一旦我爬过一次,如果有新数据进入 S3,例如从 Athena 查询数据目录时,实际上已经发现了数据。那么,我可以说每次添加新数据时我都不需要爬虫来爬行,除非有新模式?
事实上,如果我知道文件的架构,我就可以手动创建表,而无需爬虫,对吗?
Yur*_*ruk 11
如果数据按某些键(放置在子文件夹中,例如/data/year=2018/month=11/day=2)进行分区,那么您需要一个爬虫/day=3在数据目录中注册新添加的分区(即),以便能够通过 Athena 查询它。
但是,如果数据未分区或进入已注册的分区,则无需运行爬虫。
或者运行爬虫程序,您可以通过运行Athena 命令MSCK REPAIR TABLE <table>或手动注册来发现和注册新分区。
在 Data Catalog 中创建表的最简单方法是运行爬虫。但是,如果您了解架构并且有耐心编写CREATE TABLEAthena 查询或通过AWS Glue 控制台填写所有字段,那么您也可以这样做。
| 归档时间: |
|
| 查看次数: |
2417 次 |
| 最近记录: |