AWS 中的 HDFS 或 S3 数据湖有什么区别?

Azi*_*ssi 1 amazon-s3 amazon-ec2 hdfs data-lake

我需要在AWS上构建一个数据湖,但我不知道S3与HDFS到底有什么不同。我在互联网上找到了一些答案,但我仍然不明白真正的区别。

我还需要知道是否有人有AWS中HDFS和S3的数据湖架构。

Joh*_*ein 5

HDFS只能由其所在的 Hadoop 集群访问。如果集群关闭或终止,HDFS 中的数据将消失。

Amazon S3 中的数据:

  • 始终保持可用(无法“关闭”)
  • 可供多个集群访问
  • 可以访问其他 AWS 服务,例如 Amazon Athena(这是“Presto 即服务”,因此您甚至可能不需要 Hadoop 集群)
  • 具有多种存储类别,例如以较低的成本存储不常访问的数据
  • 没有存储限制(而HDFS仅限于Hadoop集群中可用的存储)