了解 GCP Dataproc 计费以及它如何受标签影响

jam*_*iet 2 billing google-cloud-platform google-cloud-dataproc

我正在努力确保我清楚了解我的组织如何为 Google Cloud Platform Dataproc 付费。

我们已将帐单历史记录导出到 BigQuery,以便我们对其进行分析。今天早上我们运行了两个 dataproc 集群,下面的屏幕截图显示了这两个集群的计费历史的子集。我已经过滤了labels.key = "goog-dataproc-cluster-uuid" or labels.key = "goog-dataproc-cluster-name" or labels.key = "goog-dataproc-location"。这是结果的一个子集

在此处输入图片说明

我已经围绕两种 sku 的成本绘制了方框。让我们来看看在 EMEA项目中运行标准 Intel N1 16 VCPU

我只有两个集群,但对于这两个集群中的每一个,都有三行。原因是每个 dataproc 集群都应用了三个标签,因此成本1.2718523.815556 各出现了 3 次。

我的简单问题是……我如何获得我的 dataproc 集群的总成本?我是将所有这些数字加起来(从而意味着总成本在所有标签上平均分配)还是只取其中一个值(意味着每个标签的成本重复)?


这是我的问题的另一种表述方式。此查询是否给出了运行集群data-dev-dataplatform-dataproc一天的总成本:

SELECT  sum(cost)
FROM [dh-billing-179310:billing.gcp_billing_export_XXXXXXXX] 
WHERE labels.key = "goog-dataproc-cluster-name"
  and labels.value = "data-dev-dataplatform-dataproc" 
  and usage_start_time >= "2018-07-05 00:00:00"
  and usage_end_time <= "2018-07-06 00:00:00"
Run Code Online (Sandbox Code Playgroud)

还是我需要包括其他标签才能获得总成本?

Den*_*Huo 5

在计费导出数据的扁平化视图中,每个标签的成本都会重复;您应该为任何特定计算选择一个标签值。如果您要计算 Dataproc 总数,使用 Dataproc 插入的“goog-dataproc-*”标签之一可能最方便。

此处的想法是,您可以使用不同的标签集轻松组织归因于任何给定子项目的与 Dataproc 相关的总费用,以便您可以按照不同的维度过滤结算查询。