AWS胶水爬虫不创建表

Vin*_*nce 17 amazon-web-services aws-glue

我有一个我在AWS Glue中创建的爬虫,它在成功完成后不会在数据目录中创建表.

爬网程序运行大约需要20秒,日志显示已成功完成.CloudWatch日志显示:

  • 基准测试:为Crawler运行开始爬网
  • 基准:分类完成,将结果写入DB
  • 基准:写完目录
  • 基准测试:Crawler已完成运行并处于就绪状态

我不知道为什么没有创建数据目录中的表.AWS Docs对调试没有多大帮助.

小智 14

检查与爬网程序关联的IAM角色.您很可能没有正确的权限.

创建爬网程序时,如果选择创建IAM角色(默认设置),则它将为您指定的S3对象创建策略.如果以后编辑爬网程序并仅更改S3路径.与爬网程序关联的角色将无权访问新的S3路径.

  • 哇。AWS 与易于使用相反的第 953 个原因。解决这个问题有多困难? (5认同)
  • 知道为什么这个不正确的权限不会在日志中显示为异常吗? (4认同)
  • 默认的胶水服务角色仅包含S3前缀,例如“ glue-public”,我需要对其进行更改以包括要爬网的存储桶。 (2认同)

Moh*_*ghi 5

我遇到了同样的问题,按照其他人的建议,我尝试修改现有的 IAM 角色,将新的 S3 存储桶作为资源包含在内,但由于某种原因它不起作用。然后我从头开始创建了一个全新的角色……这次成功了。另外,我对 AWS 的一个大问题是“为什么由于附加的 IAM 策略错误而导致的访问被拒绝错误不会出现在云监视日志中?” 这使得调试变得困难。