vva*_*zza 0 cdc amazon-s3 amazon-web-services aws-lambda
我对云空间相当陌生。作为我们当前项目的一部分,我们正在尝试在 Amazon S3 存储桶中创建数据湖。将会有另一个 S3 层,其中包含前一层发生的 CDC。架构团队建议使用 Talend 或 Streamsets。是否有其他方法可以将 CDC 从 S3 实施到另一个 S3 存储桶?
从事务源提取数据时,实施 CDC 或修补 CDC 始终是一项重要任务。虽然 S3 中的对象是不可变的,所以 S3 本身不提供任何内容来合并捕获的更改数据 (CDC)。在 S3 或 AWS-Data-Lakes 中实现 CDC 修补的方法很少。
首先,您需要确保您的 ETL 工具管道(Stream-sets/NiFi/Sqoop)应该能够从源系统获取更新的事务/记录(通过使用 last_modified_date 列等或通过事务日志)并且将其放置在相同的 s3 diff 路径或不同的 s3 存储桶 (CDC-delta) 中。
现在要将这个增量(CDC)合并到基表中,您可以使用下面提到的方法之一:
| 归档时间: |
|
| 查看次数: |
4718 次 |
| 最近记录: |