AWS Glue Crawler 覆盖自定义表属性

Thi*_*dim 5 amazon-web-services aws-glue

我有一个由 AWS Glue 管理的数据目录,我的开发人员在 S3 存储桶中使用新表或分区进行的任何更新,我们都会使用爬网程序每天进行更新,以保持新分区的正常运行。

但是,我们还需要自定义表属性。在我们的配置单元中,我们将每个表的数据源作为表属性,并用胶水将其添加到数据目录中的表中,但是每次运行爬虫时,它都会覆盖自定义表属性(例如描述)。

我做错了什么吗?或者这是 AWS Glue 的错误?

Che*_*rry 0

您检查Schema change policy过爬虫定义吗?

在此输入图像描述

  • 这不会有帮助 - 这将停止架构的更新,而他面临的问题是爬虫擦除自定义表属性 (5认同)