使用Apache Beam对Dataflow批量加载的性能问题

Bal*_*esh 0 google-bigquery google-cloud-dataflow apache-beam

我正在对数据流批处理负载进行性能基准测试,发现与Bigquery命令行工具上的相同负载相比,负载太慢了.

文件大小约为20 MB,有数百万条记录.我尝试了不同的机器类型,并且n1-highmem-4在加载目标BQ表时加载时间为8分钟时获得了最佳的负载性能.

通过在命令行实用程序上运行BQ命令来应用相同的表加载时,处理和加载相同数量的数据几乎不需要2分钟.有关使用Dataflow作业的负载性能不佳的任何见解?如何提高性能使其与BQ命令行实用程序相媲美?

jkf*_*kff 5

最有可能的是,花费几分钟来启动和关闭虚拟机.如果你正在做一些可以使用BQ CLI直接完成的事情,那么为此目的使用Dataflow可能有点过头了.但是,您可以使用更多详细信息(例如您的代码和Dataflow作业ID)更新您的问题 - 可能还有其他低效的问题.