小编tik*_*run的帖子

如何使用 Glue 数据目录创建 Redshift 表

我正在使用AWS Glue开发 ETL管道。因此，我有一个使用PySpark以多种方式进行转换的文件，例如重复列、更改数据类型、添加新列等。我使用 S3 位置中的数据存储运行爬虫，因此它根据给定创建了 Glue Table文件。我的意思是，当我向文件添加新列时，它会在运行爬虫时相应地更改粘合表。csvcsvcsv

现在我想对Amazon Redshift做同样的事情，我想做的是在 Redshift 中创建一个表，该表类似于我之前提到的 Glue 表（使用创建csv）。很多答案都解释了如何手动创建 Redshift 架构。我做了同样的事情，但是当数据类型更改时我必须手动更新它。当csv文件更改时，Redhsift 表必须相应更新。

我可以使用爬虫做同样的事情吗？我的意思是创建一个类似于 Glue 目录表的 Redhsift 表？因此，当数据类型更改或在csv文件中删除或添加列时，我们可以运行爬网程序，我们可以使用爬网程序来执行此操作，还是有任何其他方法可以满足我的需求？这应该是一个完全自动化的 ELT 管道。

任何帮助将不胜感激！

etl amazon-web-services amazon-redshift pyspark aws-glue-data-catalog

tik*_*run

lucky-day

5
推荐指数

1
解决办法

3648
查看次数

如何将 Amazon Athena 表直接复制到 Amazon Redshift 中？

我在 S3 中有一些 JSON 文件，我能够从这些数据文件在 Amazon Athena 中创建数据库和表。大功告成，我的下一个目标是将这些创建的表复制到 Amazon Redshift 中。我根据这些数据文件在 Amazon Athena 中创建了其他表。我的意思是我使用 S3 中的那些数据文件创建了三个表，后者我使用这 3 个表创建了新表。所以目前我有 5 个不同的表，想要在 Amazon Redshift 中创建有数据或没有数据的表。

我检查了Amazon Redshift 中的COPY命令，但没有Amazon Athena 的COPY 命令。以下是可用列表。

从 Amazon S3 复制

从亚马逊 EMR 复制

从远程主机 (SSH) 复制

从 Amazon DynamoDB 复制

如果没有其他解决方案，我计划基于 Amazon Athena 中新创建的表创建新的 JSON 文件到 S3 存储桶中。然后我们可以轻松地将那些从 S3 复制到 Redshift 中，不是吗？有没有其他好的解决方案？

amazon-s3 amazon-web-services amazon-redshift amazon-athena

tik*_*run

lucky-day

0
推荐指数

1
解决办法

2466
查看次数

标签统计

amazon-redshift ×2

amazon-web-services ×2

amazon-athena ×1

amazon-s3 ×1

aws-glue-data-catalog ×1

etl ×1

pyspark ×1

如何使用 Glue 数据目录创建 Redshift 表

如何将 Amazon Athena 表直接复制到 Amazon Redshift 中？

标签 统计

小编tik_run的帖子

标签统计