Hadoop如何获得未存储在HDFS上的输入数据?

sme*_*eeb 6 java hadoop nosql hdfs

我正在尝试将我的大脑包裹在Hadoop周围并阅读这篇优秀的教程以及阅读官方Hadoop文档.但是,在这些文献中,我找不到一些简单的解释:

在所有人为设计的" Hello World! "(字数统计)介绍性MR示例中,输入数据直接存储在文本文件中.然而,对我来说,感觉在现实世界中很少会出现这种情况.我会想象,在现实中,输入数据会存在于大数据存储,如关系数据库,蒙戈,卡桑德拉,或只能通过REST API等.

所以我问:在现实世界中,Hadoop如何获取其输入数据?我确实看到有像SqoopFlume这样的项目,我想知道这些框架的重点是简单地将ETL输入数据输入HDFS以运行MR作业.

Ans*_*shi 5

实际上,Real world应用程序中需要HDFS,原因有很多.

  • 非常高的带宽,支持Map Reduce工作负载和可伸缩性.
  • 数据可靠性和容错性.由于复制和分布式性质.关键数据系统所必需的.
  • 灵活性 - 您无需预先处理数据以将其存储在HDFS中.

Hadoop旨在编写一次并阅读许多概念.通常用于摄取的Kafka,Flume和Sqoop本身非常容错,并且为HDFS的数据摄取提供高带宽.有时需要使用GB中的数据从每分钟数千个源中摄取数据.为此,需要这些工具以及容错存储系统-HDFS.