AWS Glue ETL 作业和 AWS EMR 之间有什么区别?

mig*_*use 5 etl amazon-s3 amazon-web-services amazon-emr aws-glue

如果我必须对以 csv 文件形式存储在 S3 中的巨大数据集(例如 1Tb)执行 ETL,则可以使用 AWS Glue ETL 作业和 AWS EMR 步骤。那么 AWS Glue 与 AWS EMR 有何不同。在这种情况下哪个是更好的解决方案。

Shu*_*ain 3

大多数差异已经列出,因此我将更多地关注特定的用例

何时选择aws胶水

  1. 数据量巨大但结构化,即它位于表结构中并且具有已知格式(CSV、parquet、orc、json)。
  2. 如果您在开发 etl 作业时需要数据沿袭图,则需要沿袭,更喜欢使用glue 本机库开发 etl。
  3. 开发人员不需要调整性能参数,例如设置执行器数量、每个执行器内存等。
  4. 您不希望产生管理大型集群的开销,只需为您使用的资源付费。

何时使用电子病历

  1. 数据巨大,但半结构化或非结构化,您无法从 Glue 目录中获得任何好处。
  2. 您只相信输出,不需要血统。
  3. 您需要根据您的工作类型和要求为每个执行器定义更多内存。
  4. 您可以轻松管理集群,或者如果您有很多可以在集群上同时运行的作业,可以节省资金。
  5. 对于结构化数据,当您需要更多 Hadoop 功能(例如 hive、presto)进行进一步分析时,您应该使用 EMR。

所以这取决于您的用例是什么。两者都很棒的服务。