我对Hadoop的使用感到困惑.我不明白何时何地使用Hadoop.
Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据.它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储.
根据定义,这项工作也可以通过Oracle,MSSQL等其他数据库完成,即跨集群存储和处理数据.那么使用Hadoop还有什么优势呢?
Hadoop基本上是一个分布式文件系统(HDFS) - 它允许您在云计算机上存储大量文件数据,处理数据冗余等.
在该分布式文件系统之上,Hadoop提供了一个用于处理所有存储数据的API - Map-Reduce.基本思想是,由于数据存储在许多节点中,因此最好以分布式方式处理数据,每个节点都可以处理存储在其中的数据,而不是花费大量时间在网络上移动数据.
与您可以实时查询的RDMS不同,map-reduce过程需要时间并且不会立即产生结果.
除了这个基本方案,您还可以构建一个列数据库,如HBase.列数据库基本上是一个哈希表,允许对行进行实时查询.
据我所知,存在很多差异.请阅读以下差异.
| 归档时间: |
|
| 查看次数: |
231 次 |
| 最近记录: |