AWS Glue 爬网程序有什么作用

Question

我已经阅读了 AWSglue 文档：爬虫： https: //docs.aws.amazon.com/glue/latest/dg/add-crawler.html但我仍然不清楚 Glue 爬虫到底是什么做。爬网程序是否会遍历您的 S3 存储桶并创建指向这些存储桶的指针？

当文档说“爬网程序的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的用途是什么？

Answer 1

CRAWLER 创建元数据，允许 GLUE 和 ATHENA 等服务将 S3 信息视为带有表的数据库。也就是说，它允许您创建 Glue Catalog。

这样你就可以看到s3作为一个由多个表组成的数据库的信息。

例如，如果您想创建爬虫，则必须指定以下字段：

数据库 --> 数据库名称服务角色 service-role/AWSGlueServiceRole 选定的分类器 --> 指定分类器包含路径 --> S3 位置