云数据融合与 GCP 上的 DataFlow 之间的区别

Sau*_*hta 0 google-cloud-dataflow google-cloud-data-fusion

GCP 管道服务之间有什么区别:Cloud Dataflow 和 Cloud Data fusion...您何时选择哪一个?

我使用数据融合中的 Basic 进行了 10 个实例的高级定价。Dataflow 中有 10 个实例集群 (n1-standard-8)。

Datafusion 的定价是其两倍多。

相互之间有什么优点和缺点

Eri*_*idt 8

Cloud Dataflow 专为高度并行化的图形处理而构建。并且可用于批处理和基于流的处理。它还被构建为完全管理的,从而混淆了管理和理解底层资源扩展概念的需要,例如如何优化洗牌性能或处理关键的不平衡问题。用户/开发人员负责通过代码构建图表;创建 N 个转换和/或操作来实现期望的目标。例如:从存储中读取文件、处理文件中的每一行、从行中提取数据、将数据转换为数字、对 X 组中的数据求和、将输出写入数据湖。

Cloud Data Fusion 专注于实现数据集成场景 => 从源读取(通过可扩展的连接器集)并写入目标,例如 BigQuery、存储等。它确实具有并行化概念,但它们不像 Cloud Dataflow 那样得到完全管理。CDF 建立在 Cloud Dataproc 之上,后者是基于 Hadoop 的处理的托管版本。它的最佳点是利用一组可扩展的连接器和运算符进行基于视觉的图形开发。

你的问题是基于“成本”概念。我的建议是退后一步,定义您的处理/图形目标。然后看每个产品的价值。如果您希望完全控制处理语义并更加关注分析,并希望批量运行和/或必须将流式重点放在数据流上。如果您想要点击式数据移动,较少关注数据分析并且不需要流式传输,那么请考虑 CDF。