Hen*_*los 3 amazon-athena aws-glue amazon-kinesis-firehose
我有一个斗,用作Kinesis Firehose流的目的地.
Firehose使用该yyyy/mm/dd/HH格式自动在该存储桶上创建基于日期的前缀.
然后我创建了一个爬虫程序,它将搜索数据到这个存储桶并配置如下:
运行爬网程序后,它会创建一个包含以下模式的表:
| # | Column name | Data type | Key |
| --- | ----------- | --------- | ------------- |
| 1 | numberissues | int | |
| 2 | group | string | |
| 3 | createdat | string | |
| 4 | companyunitid | string | |
| 5 | partition_0 | string | Partition (0) |
| 6 | partition_1 | string | Partition (1) |
| 7 | partition_2 | string | Partition (2) |
| 8 | partition_3 | string | Partition (3) |
Run Code Online (Sandbox Code Playgroud)
如果我将重新命名partition-*其右侧的同行year,month,day并且hour,该表是为我准备使用.
但是,如果爬网程序再次运行,则架构会将列名称显示为原始列partition-*.
我知道这适用于Hive分区模式year=2018/month=04...,但我想知道是否可以"提示"关于分区字段名称的Glue.
另一种选择是试图改变Firehose前缀,但我找不到任何暗示甚至可能的东西.
| 归档时间: |
|
| 查看次数: |
1648 次 |
| 最近记录: |