在大多数Hadoop发行版的最新版本中,HDFS使用情况报告似乎在没有考虑复制因素的情况下报告空间,对吗?
当人们查看Namenode Web UI和/或运行'hadoop dfsadmin -report'命令时,可以看到如下所示的报告:
Configured Capacity: 247699161084 (230.69 GB)
Present Capacity: 233972113408 (217.9 GB)
DFS Remaining: 162082414592 (150.95 GB)
DFS Used: 71889698816 (66.95 GB)
DFS Used%: 30.73%
Under replicated blocks: 40
Blocks with corrupt replicas: 6
Missing blocks: 0
Run Code Online (Sandbox Code Playgroud)
基于此群集的机器大小,似乎此报告不考虑三重复制... IE如果我在HDFS上放置文件,我应该考虑自己的三重复制.
例如,如果我在HDFS上放置一个50GB的文件,我的HDFS是否会危险地接近满(因为它似乎会被复制3次,使用当前剩余的150GB)?
Cha*_*aos 14
让我们清楚地定义每个术语的含义.
配置容量:HDFS可用于存储的总容量.因此,如果您有4个节点且每个节点具有50 GB容量,则配置的容量将为200 GB.在配置容量的情况下,复制因子无关紧要.
DFS已使用:这是HDFS已用完的存储空间量.划分DFS由复制因子使用,以获取存储而不复制的文件的实际大小.所以,如果你使用的是DFS 60 GB,以及您的复制因子为3,你的文件的实际大小为60/3 = 20 GB.
DFS剩余:这是HDFS仍可用的存储空间量.如果您有150 GB的剩余存储空间,这意味着您可以存储最多150/3 = 50 GB的文件,而不会超出您的配置容量(假设复制因子= 3).
当前容量:在为元数据分配空间后可用于存储用户文件的存储空间量.区别:(Configured capacity - Present capacity)
用于存储文件系统元数据.和inode信息.
希望这清除它.
归档时间: |
|
查看次数: |
2858 次 |
最近记录: |