Google Cloud Dataflow和Google Cloud Dataproc有什么区别?

Kos*_*siB 31 google-cloud-dataflow google-cloud-dataproc

我正在使用Google Data Flow来实现ETL数据仓库解决方案.

看看谷歌云产品,似乎DataProc也可以做同样的事情.

DataProc似乎比DataFlow便宜一点.

有没有人知道DataFlow上DataFlow的优缺点

为什么谷歌同时提供?

And*_* Mo 33

是的,Cloud Dataflow和Cloud Dataproc都可用于实施ETL数据仓库解决方案.

有关每种产品存在的概述,请参阅Google 云端平台大数据解决方案文章

快速外卖:

  • Cloud Dataproc为您提供GCP上的Hadoop集群,以及对Hadoop生态系统工具(例如Apache Pig,Hive和Spark)的访问; 如果您已熟悉Hadoop工具并拥有Hadoop作业,那么这具有很强的吸引力
  • Cloud Dataflow为您提供了在GCP上运行基于Apache Beam的作业的位置,您无需解决群集上正在运行的作业的常见问题(例如,平衡工作或缩放作业的工作者数量;默认情况下,这是自动管理的,适用于批处理和流式处理 - 这在其他系统上非常耗时
    • Apache Beam是一个重要的考虑因素; Beam作业旨在通过"Runners"(包括Cloud Dataflow)移植,并使您能够专注于逻辑计算,而不是"跑步者"如何工作 - 相比之下,在创作Spark作业时,您的代码受到约束对跑步者,Spark,以及那个跑步者如何运作
    • Cloud Dataflow还提供基于"模板"创建作业的功能,这有助于简化差异为参数值的常见任务

  • Apache Beam 现在支持 Python 3.5 (8认同)
  • 一个非常大的缺点是Apache Beam/Dataflow仅支持Python 2.7. (4认同)

Tia*_*ici 15

Cloud Dataflow是一种无服务器数据处理服务,它运行使用 Apache Beam 库编写的作业。当您在 Cloud Dataflow 上运行作业时,它会启动虚拟机集群,将作业中的任务分配给虚拟机,并根据作业的执行情况动态扩展集群。它甚至可能会改变处理管道中的操作顺序以优化您的工作。

\n

在此输入图像描述

\n

因此用例是各种数据源/数据库之间的 ETL(提取、传输、加载)作业。例如,将大文件从 Cloud Storage 加载到 BigQuery 中。

\n

流式处理基于对 PubSub 主题的订阅,因此您可以侦听实时事件(例如来自某些 IoT 设备的事件),然后进行进一步处理。

\n

Dataflow 有趣的具体用例是 Dataprep。Dataprep 是 GCP 上的云工具,用于探索、清理、整理(大型)数据集。当您定义要对数据执行的操作(例如格式化、加入等)时,作业将在 Dataflow 上运行。

\n

Cloud Dataflow 还提供基于“模板”创建作业的功能,这有助于简化参数值差异的常见任务。

\n

在此输入图像描述

\n

数据处理程序是一项托管 Spark 和 Hadoop 服务,可让您利用开源数据工具进行批处理、查询、流式处理和机器学习。Dataproc 自动化可帮助您快速创建集群、轻松管理集群,并通过在不需要时关闭集群来节省资金。花在管理上的时间和金钱更少,您可以专注于您的工作和数据。

\n

在此输入图像描述

\n

在此输入图像描述

\n
    \n
  1. 超快 \xe2\x80\x94 如果不使用 Dataproc,在本地或通过 IaaS 提供商创建 Spark 和 Hadoop 集群可能需要 5 到 30 分钟。相比之下,Dataproc 集群的启动、\n扩展和关闭速度很快,每个操作平均需要 90 秒\n或更短时间。这意味着您可以花费更少的时间等待\n集群,并有更多的时间来实际操作数据。
  2. \n
  3. 集成 \xe2\x80\x94 Dataproc 内置了与其他 Google\nCloud Platform 服务的集成,例如 BigQuery、云存储、Cloud\nBigtable、云日志记录和云监控,因此您拥有的不仅仅是 Spark 或 Hadoop\n cluster\xe2\x80\x94 您拥有完整的数据平台。\n例如,您可以使用 Dataproc 轻松地将 TB 级\n原始日志数据直接 ETL 到 BigQuery 中以进行业务报告。
  4. \n
  5. 托管 \xe2\x80\x94 使用 Spark 和 Hadoop 集群,\n无需管理员或特殊软件的帮助。您可以通过 Google Cloud Console、\nCloud SDK 或 Dataproc REST API 轻松与\n集群和 Spark 或 Hadoop 作业交互。当您使用完集群后,只需将其关闭即可,这样您就不用在集群上花钱了。您\xe2\x80\x99 无需担心丢失数据,因为\nDataproc 与 Cloud Storage、BigQuery 和 Cloud\nBigtable 集成。
  6. \n
  7. 简单且熟悉\xe2\x80\x94 您不需要\xe2\x80\x99 需要学习新工具或 API 来使用 Dataproc,\n因此可以轻松地将现有项目移至 Dataproc\n而无需重新开发。Spark、Hadoop、Pig 和 Hive 经常更新\n,因此您可以更快地提高工作效率。
  8. \n
\n

在此输入图像描述

\n

如果您想从现有的 Hadoop/Spark 集群迁移到云端,或者利用市场上众多训练有素的 Hadoop/Spark 工程师,请选择 Cloud Dataproc;如果您信任 Google 在大规模数据处理方面的专业知识并免费获取其最新改进,请选择 DataFlow。

\n

在尝试在 Dataproc 和 Dataflow 之间进行选择时需要考虑以下三个要点

\n

配置\nDataproc - 手动配置群集\nDataflow - 无服务器。自动配置集群\nHadoop 依赖项\n如果处理对 Hadoop 生态系统中的工具有任何依赖性,则应使用 Dataproc。\n可移植性\nDataflow/Beam 在处理逻辑和底层执行引擎之间提供了清晰的分离。这有助于支持 Beam 运行时的不同执行引擎之间的可移植性,即相同的管道代码可以在 Dataflow、Spark 或 Flink 上无缝运行。

\n

在此输入图像描述

\n


Kan*_*san 13

尝试在Dataproc和Dataflow之间进行选择时,需要考虑以下三个要点

  • 供应数据
    通路 - 手动供应群集
    数据流 - 无服务器.自动配置群集


  • 如果处理与Hadoop生态系统中的工具有任何依赖关系,则应使用Hadoop依赖关系 Dataproc.

  • 可移植性
    Dataflow/Beam在处理逻辑和底层执行引擎之间提供了清晰的分离.这有助于跨支持Beam运行时的不同执行引擎的可移植性,即相同的管道代码可以在Dataflow,Spark或Flink上无缝运行.

来自谷歌网站的这个流程图解释了如何选择一个而不是另一个.

Dataproc vs Dataflow https://cloud.google.com/dataflow/images/flow-vs-proc-flowchart.svg

有关详细信息,请参阅以下链接
https://cloud.google.com/dataproc/#fast--scalable-data-processing


jkf*_*kff 6

与Dataproc同时提供Hadoop和Spark的原因相同:有时一种编程模型最适合这项工作,有时则是另一种。同样,在某些情况下,最适合这项工作的是Dataflow提供的Apache Beam编程模型。

在许多情况下,一个很大的考虑因素是,一个人已经有针对特定框架编写的代码库,并且只想将其部署在Google Cloud上,因此即使说Beam编程模型优于Hadoop,也有人拥有一个许多Hadoop代码可能仍暂时选择Dataproc,而不是在Beam上重写其代码以在Dataflow上运行。

Spark和Beam编程模型之间的差异非常大,并且在许多用例中,每个用例都比另一个有很大的优势。请参阅https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison


Le *_*iem 6

Cloud Dataproc 和 Cloud Dataflow 都可用于数据处理,并且它们的批处理和流处理功能存在重叠。您可以决定哪种产品更适合您的环境。

\n\n

Cloud Dataproc非常适合依赖于特定 Apache 大数据组件的环境:\n- 工具/包\n- 管道\n- 现有资源的技能集

\n\n

Cloud Dataflow通常是全新环境的首选:\n- 运营开销更少\n- 开发批处理或流式管道的统一方法\n- 使用 Apache Beam\n- 支持跨 Cloud Dataflow、Apache Spark 和其他平台的管道可移植性Apache Flink 作为运行时。

\n\n

在此处查看更多详细信息https://cloud.google.com/dataproc/

\n\n

定价比较:

\n\n\n\n

如果您想计算和比较更多 GCP 资源的成本,请参考此网址https://cloud.google.com/products/calculator/

\n