Hadoop如何获得未存储在HDFS上的输入数据？

Question

我正在尝试将我的大脑包裹在Hadoop周围并阅读这篇优秀的教程以及阅读官方Hadoop文档.但是,在这些文献中,我找不到一些简单的解释:

在所有人为设计的" Hello World! "(字数统计)介绍性MR示例中,输入数据直接存储在文本文件中.然而,对我来说,感觉在现实世界中很少会出现这种情况.我会想象,在现实中,输入数据会存在于大数据存储,如关系数据库,蒙戈,卡桑德拉,或只能通过REST API等.

所以我问:在现实世界中,Hadoop如何获取其输入数据？我确实看到有像Sqoop和Flume这样的项目,我想知道这些框架的重点是简单地将ETL输入数据输入HDFS以运行MR作业.

Answer 1

实际上,Real world应用程序中需要HDFS,原因有很多.

Hadoop旨在编写一次并阅读许多概念.通常用于摄取的Kafka,Flume和Sqoop本身非常容错,并且为HDFS的数据摄取提供高带宽.有时需要使用GB中的数据从每分钟数千个源中摄取数据.为此,需要这些工具以及容错存储系统-HDFS.