如何更改Glue Crawler创建的自动检测分区的列名?

Hen*_*los 3 amazon-athena aws-glue amazon-kinesis-firehose

我有一个斗,用作Kinesis Firehose流的目的地.

Firehose使用该yyyy/mm/dd/HH格式自动在该存储桶上创建基于日期的前缀.

然后我创建了一个爬虫程序,它将搜索数据到这个存储桶并配置如下:

抓取工具配置

运行爬网程序后,它会创建一个包含以下模式的表:

| #   | Column name   | Data type | Key           |
| --- | -----------   | --------- | ------------- |
| 1   | numberissues  | int       |               |
| 2   | group         | string    |               |
| 3   | createdat     | string    |               |
| 4   | companyunitid | string    |               |
| 5   | partition_0   | string    | Partition (0) |
| 6   | partition_1   | string    | Partition (1) |
| 7   | partition_2   | string    | Partition (2) |
| 8   | partition_3   | string    | Partition (3) |
Run Code Online (Sandbox Code Playgroud)

如果我将重新命名partition-*其右侧的同行year,month,day并且hour,该表是为我准备使用.

但是,如果爬网程序再次运行,则架构会将列名称显示为原始列partition-*.

我知道这适用于Hive分区模式year=2018/month=04...,但我想知道是否可以"提示"关于分区字段名称的Glue.

另一种选择是试图改变Firehose前缀,但我找不到任何暗示甚至可能的东西.

Ric*_*fer 9

在这种情况下,您可以设置"忽略更改并且不更新数据目录"选项.

然后,您可以重命名列.这将允许爬网程序在下次运行时检测新分区,但保留其名称.