AWS Elastic MapReduce和AWS Redshift之间有什么区别

Cen*_*xui 7 hadoop amazon-ec2 amazon-web-services

我看到AWS Elastic MapReduce和AWS Redshift都使用集群结构,可用于数据分析.他们有什么不同的用例?

Amazon Redshift支持与许多类型的应用程序的客户端连接,包括商业智能(BI),报告,数据和分析工具.

Amazon Elastic MapReduce(Amazon EMR)是一个托管集群平台,可简化AWS上的大数据框架(如Apache Hadoop和Apache Spark)的运行,以处理和分析大量数据.

Joh*_*ein 31

您是正确的,Amazon EMR和Amazon Redshift都是可以横向扩展以提供更多计算能力的集群系统.但是,这两种服务之间存在一些非常明显的差异.

Amazon EMR提供Apache Hadoop和在Hadoop上运行的应用程序.它是一个非常灵活的系统,可以读取和处理非结构化数据,通常用于处理大数据.但是,学习Hadoop和相关技术可能非常困难.("拥有权利的同时也被赋予了重大的责任!")

Amazon Redshift是一个通过SQL访问的PB级数据仓库.在查询之前必须将数据加载到Redshift中,这通常需要一些转换("ETL").

那么选择哪一个?

  • 如果您想使用SQL并且您拥有结构化数据(例如CSV文件),那么Redshift是最简单的解决方案.
  • 如果您想处理非结构化数据(例如,使用奇怪的格式而不是结构化的CSV文件),Amazon EMR可以提供非常强大的Hadoop系统.
  • 有时人们同时使用 - 使用Hadoop转换数据,然后使用Redshift查询数据.

如果Amazon Redshift可以满足您的需求,那么请使用它而不是Hadoop.Redshift使用起来更简单,因为它将自身表现为标准的SQL数据库,您可以在几分钟内完成.所有集群的东西都是幕后的,你不必知道太多使用它.

如果您需要更灵活的功能并且不介意获得低级别和技术性,那么Amazon EMR上的Hadoop 将为您提供更多功能.