Kos*_*siB 31 google-cloud-dataflow google-cloud-dataproc
我正在使用Google Data Flow来实现ETL数据仓库解决方案.
看看谷歌云产品,似乎DataProc也可以做同样的事情.
DataProc似乎比DataFlow便宜一点.
有没有人知道DataFlow上DataFlow的优缺点
为什么谷歌同时提供?
And*_* Mo 33
是的,Cloud Dataflow和Cloud Dataproc都可用于实施ETL数据仓库解决方案.
有关每种产品存在的概述,请参阅Google 云端平台大数据解决方案文章
快速外卖:
Tia*_*ici 15
Cloud Dataflow是一种无服务器数据处理服务,它运行使用 Apache Beam 库编写的作业。当您在 Cloud Dataflow 上运行作业时,它会启动虚拟机集群,将作业中的任务分配给虚拟机,并根据作业的执行情况动态扩展集群。它甚至可能会改变处理管道中的操作顺序以优化您的工作。
\n\n因此用例是各种数据源/数据库之间的 ETL(提取、传输、加载)作业。例如,将大文件从 Cloud Storage 加载到 BigQuery 中。
\n流式处理基于对 PubSub 主题的订阅,因此您可以侦听实时事件(例如来自某些 IoT 设备的事件),然后进行进一步处理。
\nDataflow 有趣的具体用例是 Dataprep。Dataprep 是 GCP 上的云工具,用于探索、清理、整理(大型)数据集。当您定义要对数据执行的操作(例如格式化、加入等)时,作业将在 Dataflow 上运行。
\nCloud Dataflow 还提供基于“模板”创建作业的功能,这有助于简化参数值差异的常见任务。
\n\n数据处理程序是一项托管 Spark 和 Hadoop 服务,可让您利用开源数据工具进行批处理、查询、流式处理和机器学习。Dataproc 自动化可帮助您快速创建集群、轻松管理集群,并通过在不需要时关闭集群来节省资金。花在管理上的时间和金钱更少,您可以专注于您的工作和数据。
\n\n\n如果您想从现有的 Hadoop/Spark 集群迁移到云端,或者利用市场上众多训练有素的 Hadoop/Spark 工程师,请选择 Cloud Dataproc;如果您信任 Google 在大规模数据处理方面的专业知识并免费获取其最新改进,请选择 DataFlow。
\n在尝试在 Dataproc 和 Dataflow 之间进行选择时需要考虑以下三个要点
\n配置\nDataproc - 手动配置群集\nDataflow - 无服务器。自动配置集群\nHadoop 依赖项\n如果处理对 Hadoop 生态系统中的工具有任何依赖性,则应使用 Dataproc。\n可移植性\nDataflow/Beam 在处理逻辑和底层执行引擎之间提供了清晰的分离。这有助于支持 Beam 运行时的不同执行引擎之间的可移植性,即相同的管道代码可以在 Dataflow、Spark 或 Flink 上无缝运行。
\n\nKan*_*san 13
尝试在Dataproc和Dataflow之间进行选择时,需要考虑以下三个要点
供应数据
通路 - 手动供应群集
数据流 - 无服务器.自动配置群集
如果处理与Hadoop生态系统中的工具有任何依赖关系,则应使用Hadoop依赖关系 Dataproc.
可移植性
Dataflow/Beam在处理逻辑和底层执行引擎之间提供了清晰的分离.这有助于跨支持Beam运行时的不同执行引擎的可移植性,即相同的管道代码可以在Dataflow,Spark或Flink上无缝运行.
来自谷歌网站的这个流程图解释了如何选择一个而不是另一个.
https://cloud.google.com/dataflow/images/flow-vs-proc-flowchart.svg
有关详细信息,请参阅以下链接
https://cloud.google.com/dataproc/#fast--scalable-data-processing
与Dataproc同时提供Hadoop和Spark的原因相同:有时一种编程模型最适合这项工作,有时则是另一种。同样,在某些情况下,最适合这项工作的是Dataflow提供的Apache Beam编程模型。
在许多情况下,一个很大的考虑因素是,一个人已经有针对特定框架编写的代码库,并且只想将其部署在Google Cloud上,因此即使说Beam编程模型优于Hadoop,也有人拥有一个许多Hadoop代码可能仍暂时选择Dataproc,而不是在Beam上重写其代码以在Dataflow上运行。
Spark和Beam编程模型之间的差异非常大,并且在许多用例中,每个用例都比另一个有很大的优势。请参阅https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。
Cloud Dataproc 和 Cloud Dataflow 都可用于数据处理,并且它们的批处理和流处理功能存在重叠。您可以决定哪种产品更适合您的环境。
\n\nCloud Dataproc非常适合依赖于特定 Apache 大数据组件的环境:\n- 工具/包\n- 管道\n- 现有资源的技能集
\n\nCloud Dataflow通常是全新环境的首选:\n- 运营开销更少\n- 开发批处理或流式管道的统一方法\n- 使用 Apache Beam\n- 支持跨 Cloud Dataflow、Apache Spark 和其他平台的管道可移植性Apache Flink 作为运行时。
\n\n在此处查看更多详细信息https://cloud.google.com/dataproc/
\n\n定价比较:
\n\n\n\n如果您想计算和比较更多 GCP 资源的成本,请参考此网址https://cloud.google.com/products/calculator/
\n| 归档时间: |
|
| 查看次数: |
21054 次 |
| 最近记录: |