cro*_*tor 7 rdbms hadoop nosql
好的..我已经尝试在网站和本网站上搜索这个问题的答案,这似乎是一个非常基本的问题.我是大数据处理的完全noob.
我想知道HDFS和数据库之间的关系.是否总是需要使用HDFS,数据是否采用某种NoSQL格式?使用HDFS时是否始终附加特定的数据库?我知道cloudera提供Hadoop解决方案,他们使用HBase.
我可以使用关系数据库作为Hadoop的本机数据库吗?
Tar*_*riq 14
I want to know the relationship between HDFS and databases.
Run Code Online (Sandbox Code Playgroud)
有没有relation在2之间这样如果你一直希望找到一些相似性,这是常见的2条文的唯一store数据.但这类似于任何FS和DB组合.例如,MySQL和ext3.你说你在MySQL中存储数据,但最终你的数据存储在你的FS之上.通常人们在其Hadoop集群之上使用NoSQL数据库(如HBase)来利用HDFS提供的并行性和分布式行为.
Is it always necessary that to use HDFS, the data be in a some NoSQL format?
Run Code Online (Sandbox Code Playgroud)
其实没有什么像NoSQL format.您可以将HDFS用于任何类型的数据,文本,二进制,xml等.
Is there a specific database that always comes attached when using HDFS?
Run Code Online (Sandbox Code Playgroud)
没有.唯一与HDFS配合使用的是MapReduce framework.显然,您可以使用DB来使用HDFS.人们经常在HDFS之上使用NoSQL DB.有几个选择,如Cassandra,HBase等.完全取决于您决定使用哪一个.
Can I use a relational database as the native database for Hadoop?
Run Code Online (Sandbox Code Playgroud)
没有OOTB功能允许这样做.而且,将RDBMS与Hadoop一起使用没有多大意义.Hadoop是在RDBMS不适合的时候开发的,比如处理数据PB,处理非结构化数据等.尽管如此,你不能认为Hadoop是RDBMB的替代品.两者都有完全不同的目标.
编辑:
通常人们使用NoSQL DB(如HBase,Cassandra)和Hadoop.将这些DB与hadoop一起使用仅仅是配置问题.您不需要任何连接程序即可实现此目的.除了@Doctor Dan提出的观点之外,选择NoSQL DB代替SQL DB的原因还有很多其他原因.有一点是size.这些NoSQL DB提供了很好的横向可扩展性,使您可以轻松存储数据PB.您可以扩展传统系统,但可以垂直扩展.complexity数据的另一个原因.使用这些数据库的地方主要处理高度非结构化数据,使用传统系统处理这些数据并不容易.例如,传感器数据,日志数据等.
基本上,我不明白为什么SQOOP存在.为什么我们不能直接在Hadoop上使用SQL数据.
虽然Hadoop非常擅长处理您的BigData需求,但它并不是满足您所有需求的解决方案.它不适合实时需求.假设您是一个拥有非常庞大的数据集的在线交易公司.您发现使用Hadoop可以非常轻松地处理这些数据.但问题是您无法通过Hadoop满足您客户的实时需求.这是SQOOP进入画面的地方.它是一个导入/导出工具,允许您在SQL DB和Hadoop之间移动数据.您可以将BigData移动到Hadoop集群中,在那里处理它,然后使用SQOOP将结果推送回SQL DB,以满足客户的实时需求.
HTH
| 归档时间: |
|
| 查看次数: |
6819 次 |
| 最近记录: |