Vic*_*Cui 5 amazon-web-services aws-glue
我已经阅读了 AWSglue 文档:爬虫: https: //docs.aws.amazon.com/glue/latest/dg/add-crawler.html但我仍然不清楚 Glue 爬虫到底是什么做。爬网程序是否会遍历您的 S3 存储桶并创建指向这些存储桶的指针?
当文档说“爬网程序的输出由数据目录中定义的一个或多个元数据表组成”时,这些元数据表的用途是什么?
CRAWLER 创建元数据,允许 GLUE 和 ATHENA 等服务将 S3 信息视为带有表的数据库。也就是说,它允许您创建 Glue Catalog。
这样你就可以看到s3作为一个由多个表组成的数据库的信息。
例如,如果您想创建爬虫,则必须指定以下字段:
数据库 --> 数据库名称 服务角色 service-role/AWSGlueServiceRole 选定的分类器 --> 指定分类器包含路径 --> S3 位置
| 归档时间: |
|
| 查看次数: |
14603 次 |
| 最近记录: |