Google Cloud Dataflow和Google Cloud Dataproc有什么区别？

Question

Google Cloud Dataflow和Google Cloud Dataproc有什么区别？

Kos*_*siB 31 google-cloud-dataflow google-cloud-dataproc

我正在使用Google Data Flow来实现ETL数据仓库解决方案.

看看谷歌云产品,似乎DataProc也可以做同样的事情.

DataProc似乎比DataFlow便宜一点.

有没有人知道DataFlow上DataFlow的优缺点

为什么谷歌同时提供？

Answer 1

And*_* Mo 33

是的,Cloud Dataflow和Cloud Dataproc都可用于实施ETL数据仓库解决方案.

有关每种产品存在的概述,请参阅Google 云端平台大数据解决方案文章

快速外卖:

Cloud Dataproc为您提供GCP上的Hadoop集群,以及对Hadoop生态系统工具(例如Apache Pig,Hive和Spark)的访问; 如果您已熟悉Hadoop工具并拥有Hadoop作业,那么这具有很强的吸引力
Cloud Dataflow为您提供了在GCP上运行基于Apache Beam的作业的位置,您无需解决群集上正在运行的作业的常见问题(例如,平衡工作或缩放作业的工作者数量;默认情况下,这是自动管理的,适用于批处理和流式处理 - 这在其他系统上非常耗时
- Apache Beam是一个重要的考虑因素; Beam作业旨在通过"Runners"(包括Cloud Dataflow)移植,并使您能够专注于逻辑计算,而不是"跑步者"如何工作 - 相比之下,在创作Spark作业时,您的代码受到约束对跑步者,Spark,以及那个跑步者如何运作
- Cloud Dataflow还提供基于"模板"创建作业的功能,这有助于简化差异为参数值的常见任务

Apache Beam 现在支持 Python 3.5 (8认同)
一个非常大的缺点是Apache Beam/Dataflow仅支持Python 2.7. (4认同)

Answer 2

Tia*_*ici 15

Cloud Dataflow是一种无服务器数据处理服务，它运行使用 Apache Beam 库编写的作业。当您在 Cloud Dataflow 上运行作业时，它会启动虚拟机集群，将作业中的任务分配给虚拟机，并根据作业的执行情况动态扩展集群。它甚至可能会改变处理管道中的操作顺序以优化您的工作。

\n

因此用例是各种数据源/数据库之间的 ETL（提取、传输、加载）作业。例如，将大文件从 Cloud Storage 加载到 BigQuery 中。

\n

流式处理基于对 PubSub 主题的订阅，因此您可以侦听实时事件（例如来自某些 IoT 设备的事件），然后进行进一步处理。

\n

Dataflow 有趣的具体用例是 Dataprep。Dataprep 是 GCP 上的云工具，用于探索、清理、整理（大型）数据集。当您定义要对数据执行的操作（例如格式化、加入等）时，作业将在 Dataflow 上运行。

\n

Cloud Dataflow 还提供基于“模板”创建作业的功能，这有助于简化参数值差异的常见任务。

\n

数据处理程序是一项托管 Spark 和 Hadoop 服务，可让您利用开源数据工具进行批处理、查询、流式处理和机器学习。Dataproc 自动化可帮助您快速创建集群、轻松管理集群，并通过在不需要时关闭集群来节省资金。花在管理上的时间和金钱更少，您可以专注于您的工作和数据。

\n

超快 \xe2\x80\x94 如果不使用 Dataproc，在本地或通过 IaaS 提供商创建 Spark 和 Hadoop 集群可能需要 5 到 30 分钟。相比之下，Dataproc 集群的启动、\n扩展和关闭速度很快，每个操作平均需要 90 秒\n或更短时间。这意味着您可以花费更少的时间等待\n集群，并有更多的时间来实际操作数据。
集成 \xe2\x80\x94 Dataproc 内置了与其他 Google\nCloud Platform 服务的集成，例如 BigQuery、云存储、Cloud\nBigtable、云日志记录和云监控，因此您拥有的不仅仅是 Spark 或 Hadoop\n cluster\xe2\x80\x94 您拥有完整的数据平台。\n例如，您可以使用 Dataproc 轻松地将 TB 级\n原始日志数据直接 ETL 到 BigQuery 中以进行业务报告。
托管 \xe2\x80\x94 使用 Spark 和 Hadoop 集群，\n无需管理员或特殊软件的帮助。您可以通过 Google Cloud Console、\nCloud SDK 或 Dataproc REST API 轻松与\n集群和 Spark 或 Hadoop 作业交互。当您使用完集群后，只需将其关闭即可，这样您就不用在集群上花钱了。您\xe2\x80\x99 无需担心丢失数据，因为\nDataproc 与 Cloud Storage、BigQuery 和 Cloud\nBigtable 集成。
简单且熟悉\xe2\x80\x94 您不需要\xe2\x80\x99 需要学习新工具或 API 来使用 Dataproc，\n因此可以轻松地将现有项目移至 Dataproc\n而无需重新开发。Spark、Hadoop、Pig 和 Hive 经常更新\n，因此您可以更快地提高工作效率。

\n

如果您想从现有的 Hadoop/Spark 集群迁移到云端，或者利用市场上众多训练有素的 Hadoop/Spark 工程师，请选择 Cloud Dataproc；如果您信任 Google 在大规模数据处理方面的专业知识并免费获取其最新改进，请选择 DataFlow。

\n

在尝试在 Dataproc 和 Dataflow 之间进行选择时需要考虑以下三个要点

\n

配置\nDataproc - 手动配置群集\nDataflow - 无服务器。自动配置集群\nHadoop 依赖项\n如果处理对 Hadoop 生态系统中的工具有任何依赖性，则应使用 Dataproc。\n可移植性\nDataflow/Beam 在处理逻辑和底层执行引擎之间提供了清晰的分离。这有助于支持 Beam 运行时的不同执行引擎之间的可移植性，即相同的管道代码可以在 Dataflow、Spark 或 Flink 上无缝运行。

\n

Answer 3

Kan*_*san 13

尝试在Dataproc和Dataflow之间进行选择时,需要考虑以下三个要点

供应数据
通路 - 手动供应群集
数据流 - 无服务器.自动配置群集
如果处理与Hadoop生态系统中的工具有任何依赖关系,则应使用Hadoop依赖关系 Dataproc.
可移植性
Dataflow/Beam在处理逻辑和底层执行引擎之间提供了清晰的分离.这有助于跨支持Beam运行时的不同执行引擎的可移植性,即相同的管道代码可以在Dataflow,Spark或Flink上无缝运行.

来自谷歌网站的这个流程图解释了如何选择一个而不是另一个.

https://cloud.google.com/dataflow/images/flow-vs-proc-flowchart.svg

有关详细信息,请参阅以下链接
https://cloud.google.com/dataproc/#fast--scalable-data-processing

Answer 4

jkf*_*kff 6

与Dataproc同时提供Hadoop和Spark的原因相同：有时一种编程模型最适合这项工作，有时则是另一种。同样，在某些情况下，最适合这项工作的是Dataflow提供的Apache Beam编程模型。

在许多情况下，一个很大的考虑因素是，一个人已经有针对特定框架编写的代码库，并且只想将其部署在Google Cloud上，因此即使说Beam编程模型优于Hadoop，也有人拥有一个许多Hadoop代码可能仍暂时选择Dataproc，而不是在Beam上重写其代码以在Dataflow上运行。

Spark和Beam编程模型之间的差异非常大，并且在许多用例中，每个用例都比另一个有很大的优势。请参阅https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。

Answer 5

Le *_*iem 6

Cloud Dataproc 和 Cloud Dataflow 都可用于数据处理，并且它们的批处理和流处理功能存在重叠。您可以决定哪种产品更适合您的环境。

\n\n

Cloud Dataproc非常适合依赖于特定 Apache 大数据组件的环境：\n- 工具/包\n- 管道\n- 现有资源的技能集

\n\n

Cloud Dataflow通常是全新环境的首选：\n- 运营开销更少\n- 开发批处理或流式管道的统一方法\n- 使用 Apache Beam\n- 支持跨 Cloud Dataflow、Apache Spark 和其他平台的管道可移植性Apache Flink 作为运行时。

\n\n

在此处查看更多详细信息https://cloud.google.com/dataproc/

\n\n

定价比较：

\n\n

数据处理程序
数据流

\n\n

如果您想计算和比较更多 GCP 资源的成本，请参考此网址https://cloud.google.com/products/calculator/

\n

归档时间：	8 年，3 月前
查看次数：	21054 次
最近记录：	6 年，6 月前