小编tik*_*run的帖子

如何使用 Glue 数据目录创建 Redshift 表

我正在使用AWS Glue开发ETL管道。因此,我有一个使用PySpark以多种方式进行转换的文件,例如重复列、更改数据类型、添加新列等。我使用 S3 位置中的数据存储运行爬虫,因此它根据给定创建了 Glue Table文件。我的意思是,当我向文件添加新列时,它会在运行爬虫时相应地更改粘合表。csvcsvcsv

现在我想对Amazon Redshift做同样的事情,我想做的是在 Redshift 中创建一个表,该表类似于我之前提到的 Glue 表(使用创建csv)。很多答案都解释了如何手动创建 Redshift 架构。我做了同样的事情,但是当数据类型更改时我必须手动更新它。当csv文件更改时,Redhsift 表必须相应更新。

我可以使用爬虫做同样的事情吗?我的意思是创建一个类似于 Glue 目录表的 Redhsift 表?因此,当数据类型更改或在csv文件中删除或添加列时,我们可以运行爬网程序,我们可以使用爬网程序来执行此操作,还是有任何其他方法可以满足我的需求?这应该是一个完全自动化的 ELT 管道。

任何帮助将不胜感激!

etl amazon-web-services amazon-redshift pyspark aws-glue-data-catalog

5
推荐指数
1
解决办法
3648
查看次数

如何将 Amazon Athena 表直接复制到 Amazon Redshift 中?

我在 S3 中有一些 JSON 文件,我能够从这些数据文件在 Amazon Athena 中创建数据库和表。大功告成,我的下一个目标是将这些创建的表复制到 Amazon Redshift 中。我根据这些数据文件在 Amazon Athena 中创建了其他表。我的意思是我使用 S3 中的那些数据文件创建了三个表,后者我使用这 3 个表创建了新表。所以目前我有 5 个不同的表,想要在 Amazon Redshift 中创建有数据或没有数据的表。

我检查了Amazon Redshift 中COPY命令,但没有Amazon Athena 的COPY 命令。以下是可用列表。

  • 从 Amazon S3 复制
  • 从亚马逊 EMR 复制
  • 从远程主机 (SSH) 复制
  • 从 Amazon DynamoDB 复制

如果没有其他解决方案,我计划基于 Amazon Athena 中新创建的表创建新的 JSON 文件到 S3 存储桶中。然后我们可以轻松地将那些从 S3 复制到 Redshift 中,不是吗?有没有其他好的解决方案?

amazon-s3 amazon-web-services amazon-redshift amazon-athena

0
推荐指数
1
解决办法
2466
查看次数