hadoop的新手,只设置了3个debian服务器集群进行练习.
我正在研究hadoop的最佳实践并遇到过:JBOD没有RAID文件系统:ext3,ext4,xfs - 没有你用zfs和btrfs看到的那些花哨的COW东西
所以我提出这些问题......
我读到JBOD的地方比hadoop中的RAID要好,而且最好的文件系统是xfs,ext3和ext4.除了完全有意义的文件系统之外,为什么那些是最好的...你如何实现这个JBOD?你会看到我的混乱,如果你自己搜索谷歌,JBOD暗示一个线性附属物或只是一堆磁盘的组合,有点像一个逻辑卷,至少这是一些人如何解释它,但hadoop似乎想要一个JBOD没有结合.没有身体扩展...
问题4)然后你只是将hadoop指向那些data.dirs?
问题5)我看到JBODS有两种方式,要么是每个磁盘进入单独的安装,要么是线性连续的磁盘,这可以做到mdadm - 线性模式,或者lvm我敢打赌也可以这样做,所以我看不到大的处理那个......如果是这样的话,可以使用mdadm --linear或lvm,因为JBOD人员所指的是这个磁盘的连续性,那么这是"JBOD"或线性连接磁盘的最佳方式Hadoop的?
这是偏离主题的,但有人可以验证这是否也是正确的?使用cow,写入时复制的文件系统,比如zfs和btrfs,只会减慢hadoop的速度,但不仅仅是因为hadoop是牛的实现.
问题6)为什么COW和像RAID这样的东西浪费在hadoop上?我看到它好像你的系统崩溃并且你使用if恢复它的重要性,当你恢复系统时,对hdfs进行了如此多的更改它可能只是认为该机器有故障而且它会更好从头开始重新加入它(把它作为一个全新的datanode)......或者hadoop系统将如何看待旧的datanode?我的猜测是它不会认为它的旧的或新的甚至是datanode,它只会把它看作垃圾...... Idk ......
问题7)如果hadoop看到一个从集群上掉下来的数据节点,然后datanode重新上线,数据稍微老一点,会发生什么?数据的年龄有多大?这个话题怎么样?
我刚刚意识到我的问题很简单,但我很难解释它我必须把它分成4个问题,我仍然没有得到我正在寻找的答案,听起来像是非常聪明的人,所以我必须重新提出不同的问题..
在纸面上,我可以很容易地或用绘图......我会再次尝试用词.
如果对我在JBOD问题中提出的问题感到困惑......
**只是想知道每个人在hadoop世界中指的是什么样的JBOD都是**
在正常的世界中,JBOD与hadoop的定义不同,我想知道如何在jbods(sda + sdb + sdc + sdd)的concat上实现hadoop的最佳方法,或者只留下磁盘(sda,sdb,sdc) ,SDD)
我认为下面的图形表示解释了我最好的问题
普通世界:jbod是磁盘的连接 - 然后如果你要使用hadoop,你会将data.dir(其中hdfs virtualy sites)覆盖到这个磁盘内的目录中,所有磁盘都会显示为1 ..所以如果你的节点中有sda和sdb以及sdc作为你的数据磁盘,那么你会把它看作是某个entity1(主板的硬件或mdadm或lvm),这是sda和sdb和sdc的线性连接. .然后你将这个entity1挂载到Unix命名空间中的文件夹,如/ mnt/jbod /,然后设置hadoop在其中运行.
文本摘要:如果磁盘1和磁盘2以及磁盘3分别为100gb和200gb以及300gb,则此jbod将为600gb大,并且来自此节点的hadoop将获得600gb的容量
* TEXTO-GRAPHICAL OF LINEAR CONCAT OF DISKS BEING A JBOD:
* disk1 2 and 3 used for datanode for hadoop
* disk1 is sda 100gb
* disk2 is sdb 200gb
* disk3 is sdc …