标签: google-cloud-dataflow

如何计算在 Google Dataflow 上运行的 Apache Beam 管道的成本?

我想估算在 Google Cloud DataFlow 上运行的 Apache Beam Pipeline 成本,我目前正在运行 Apache Beam 代码,该代码使用 for 循环自动扩展管道,并在聚合和处理之前将数据存储在 Beam 本身中 12 小时左右管道中的数据。任何关于如何估计成本的想法都将受到赞赏,并且也将有优化方法来最小化这种成本。

谢谢!

google-cloud-platform google-cloud-dataflow apache-beam

0
推荐指数
1
解决办法
604
查看次数

使用 Dataflow 和 Java 在 google 大查询中将表从一个数据集复制到另一个数据集的最佳方法

使用数据流将大型查询表从一个项目复制到另一个项目的最佳方法是什么?我使用 CopyJobConfiguration 做到了这一点,但是为此我们始终需要提高其他项目的作业创建访问权限。所以我正在寻找最好、最优且经济的复制数据的解决方案。在GCP上,除了JobCopyConfiguration之外,我找不到推荐的方法。

java google-bigquery google-cloud-platform google-cloud-dataflow

0
推荐指数
1
解决办法
1045
查看次数

基于 PubSub 通知启动的数据流作业 - Python

我正在编写一个数据流作业,它从 BigQuery 读取数据并进行一些转换。

data = (
    pipeline
    | beam.io.ReadFromBigQuery(query='''
    SELECT * FROM `bigquery-public-data.chicago_crime.crime` LIMIT 100
    ''', use_standard_sql=True)
    | beam.Map(print)
)
Run Code Online (Sandbox Code Playgroud)

但我的要求是仅在收到来自 PubSub 主题的通知后才从 BigQuery 读取。仅当收到以下消息时,上述 DataFlow 作业才应开始从 BigQuery 读取数据。如果是不同的作业 ID 或不同的状态,则不应执行任何操作。

PubSub Message : {'job_id':101, 'status': 'Success'}
Run Code Online (Sandbox Code Playgroud)

这部分有什么帮助吗?

python google-cloud-platform google-cloud-pubsub google-cloud-dataflow apache-beam

0
推荐指数
1
解决办法
349
查看次数

在 GCP Dataflow/Apache Beam Python SDK 中,DoFn.process 有时间限制吗?

在 GCP Dataflow 上运行的 Apache Beam Python SDK 中,我需要DoFn.process很长时间。我的 DoFn 花了很长时间,原因并不那么重要 - 由于我无法控制的要求,我必须接受它们。但如果您必须知道的话,它对外部服务进行网络调用需要相当长的时间(几秒钟),并且它正在处理先前的多个元素GroupByKey- 导致DoFn.process调用需要几分钟的时间。

无论如何,我的问题是:通话的运行时间长度是否有时间限制DoFn.process?我这么问是因为我看到的日志如下所示:

WARNING 2023-01-03T13:12:12.679957Z ReportProgress() took long: 1m49.15726646s
WARNING 2023-01-03T13:12:14.474585Z ReportProgress() took long: 1m7.166061638s
WARNING 2023-01-03T13:12:14.864634Z ReportProgress() took long: 1m58.479671042s
WARNING 2023-01-03T13:12:16.967743Z ReportProgress() took long: 1m40.379289919s
2023-01-03 08:16:47.888 EST Error message from worker: SDK harness sdk-0-6 disconnected.
2023-01-03 08:21:25.826 EST Error message from worker: SDK harness sdk-0-2 disconnected.
2023-01-03 08:21:36.011 EST Error message from worker: SDK harness sdk-0-4 disconnected. …
Run Code Online (Sandbox Code Playgroud)

python timeout google-cloud-dataflow apache-beam apache-beam-internals

0
推荐指数
1
解决办法
653
查看次数

也许有人收到此 Dataflow BigQuery 名称值错误?

从数据流中的模板创建新作业,然后在写入 BigQuery 表数据集 ID 时出现此错误:

在此输入图像描述

错误:值的格式必须为“.+:.+..+”

尝试用谷歌搜索它,但没有找到任何东西,也许它是一些新规则,因为在我创建相同的方式之前,但从未出现此错误。

也许有人知道这是什么意思?

google-bigquery google-cloud-platform google-cloud-dataflow

0
推荐指数
1
解决办法
102
查看次数