Dip*_*kar 6 etl data-warehouse amazon-web-services apache-spark pyspark-sql
现有过程-将原始结构数据复制到Redshift的登台层中。然后使用ETL工具(例如Informatica,Telend)将增量加载到Datamart / datawarehouse的Fact和Dimension表中。所有联接都发生在数据库层中(ETL将查询推送到数据库中)-Spark是否可以替换ETL工具并进行相同的处理并将数据加载到Redshift?-这种架构的优点和缺点是什么?
小智 1
我想知道用 Spark 替换 Informatica 的原因吗?Informatica BDM 10.1 版本附带 Spark 执行引擎,它将 Informatica 映射转换为 Spark 等效项(Scala 代码)并在集群上执行。另外,在我看来,Spark更适合不中间的数据,就像ETL的情况一样,数据从一个转换到另一个转换!
| 归档时间: |
|
| 查看次数: |
1549 次 |
| 最近记录: |