ris*_*097 5 google-cloud-platform google-cloud-dataflow
我最近看到 GCP 中有一个名为 Data Fusion 的新工具,在查看它时,与 Dataflow 相比,它似乎是创建 ETL 管道的一种更简单的方法。那么我们可以假设它是 Dataflow 的替代品吗?
云数据融合基于开源管道开发工具CDAP。它提供可视化工具来构建 ETL/ELT 管道。它支持主要的 Hadoop 发行版(MapR、Harotonworks)和云(AWS、GCP、AZURE)来构建管道。在 GCP 中,它使用云 dataproc 集群来执行作业,并提供多个预构建的连接器来将源连接到接收器。它为您提供无代码管道开发。数据融合也为企业做好了数据沿袭、元数据管理的准备。
然而,Dataflow 是 GCP 中基于 Apache Beam 的完全托管服务,它提供了统一的编程模型来开发可以在各种数据处理模式上执行的管道,包括 ETL、批量计算和连续计算。相同的代码可以处理批处理和实时处理,并且有很多选择来选择管道部署的运行程序。
Apache Beam(Dataflow提供运行时的)是统一的编程模型,意味着它仍然是“编程”,即——编写代码。您对代码有很多控制权,您基本上可以编写任何您想要的内容来调整您创建的数据管道。“统一”部分是关于能够在不同的运行时上运行该代码。至少可以是 4 个,Dataflow 只是其中之一。检查兼容性矩阵。你可能会不知所措。
CDAP( Data Fusion) 看起来更多的是能够在根本不编码的情况下构建数据管道。API 是可用的,当然,如果需要的话,但目标是在不编码的情况下构建尽可能多的内容。
CDAP是相当新的并且并不广为人知(基于github统计)。在 ESB(企业服务总线)辉煌时期,有很多类似的创建无代码集成的尝试,虽然其中许多都非常成功,但总体而言,它们并没有像许多人所希望的那样流行。话虽如此,由于很多人将Data Fusion其与 Azure进行比较Data Factory,后者似乎在 Azure 上相当受欢迎,因此谷歌云也可能正在努力缩小这一差距。
小智 7
Data Fusion 不是 Dataflow 的替代品,而是一种补充。它支持混合集成,因为它基于名为 CDAP 的开源替代方案。它还具有当前在 Dataflow 中不可用的其他元数据和沿袭功能
| 归档时间: |
|
| 查看次数: |
6073 次 |
| 最近记录: |