如何计算在 Google Dataflow 上运行的 Apache Beam 管道的成本?

Mih*_*rma 0 google-cloud-platform google-cloud-dataflow apache-beam

我想估算在 Google Cloud DataFlow 上运行的 Apache Beam Pipeline 成本,我目前正在运行 Apache Beam 代码,该代码使用 for 循环自动扩展管道,并在聚合和处理之前将数据存储在 Beam 本身中 12 小时左右管道中的数据。任何关于如何估计成本的想法都将受到赞赏,并且也将有优化方法来最小化这种成本。

谢谢!

Maz*_*sun 5

对于 Dataflow 作业的成本计算,您可以在作业的详细信息页面中获取资源指标,在右侧显示 DAG、步骤:

资源指标

  • 当前 vCPU 2
  • 当前内存 8 GB
  • 当前 HDD PD 25 GB
  • 当前 SSD PD 0 B
  • DCU 总使用量 0.14

https://cloud.google.com/dataflow/docs/guides/using-monitoring-intf

然后有一个链接允许根据您的资源指标(工作线程、vCPU、内存、磁盘使用...)计算作业成本:

https://cloud.google.com/products/calculator

价格计算器建议用于经典Dataflow工作和Dataflow primeDataflow prime是一个新的优化执行引擎,允许工作人员垂直自动缩放以及其他功能:https ://cloud.google.com/dataflow/docs/guides/enable-dataflow-prime

您还可以查看此链接: https: //cloud.google.com/dataflow/pricing

以 为例Dataflow prime,在此示例中,每月的工作平均持续时间为 7.5 小时:

在此输入图像描述

在这种情况下,结果是:

在此输入图像描述