我是Hadoop的新手.我一直在读HDFS主要是"写一次,随时阅读".我有一个用例,我可能需要修改存储在HDFS中的文件.我一直在研究是否有任何方法可以做到这一点.
我的问题是可以将HDFS文件加载到HBase中,进行修改,然后将其保存回HDFS,并删除原始文件.如果可行,请告诉我.
我是hadoop的相对新手,希望更好地了解复制在HDFS中的工作原理.
假设我有一个10节点系统(每个节点1 TB),总容量为10 TB.如果我的复制因子为3,那么每个文件有1个原始副本和3个副本.因此,实质上,只有25%的存储空间是原始数据.所以我的10 TB集群实际上只有2.5 TB的原始(未复制)数据.
如果我的思路正确,请告诉我.