使用情况报告中的三重复制HDFS帐户在哪里?

dep*_*ner 3 size hadoop hdfs

在大多数Hadoop发行版的最新版本中,HDFS使用情况报告似乎在没有考虑复制因素的情况下报告空间,对吗?

当人们查看Namenode Web UI和/或运行'hadoop dfsadmin -report'命令时,可以看到如下所示的报告:

Configured Capacity: 247699161084 (230.69 GB)
Present Capacity: 233972113408 (217.9 GB)
DFS Remaining: 162082414592 (150.95 GB)
DFS Used: 71889698816 (66.95 GB)
DFS Used%: 30.73%
Under replicated blocks: 40
Blocks with corrupt replicas: 6
Missing blocks: 0
Run Code Online (Sandbox Code Playgroud)

基于此群集的机器大小,似乎此报告不考虑三重复制... IE如果我在HDFS上放置文件,我应该考虑自己的三重复制.

例如,如果我在HDFS上放置一个50GB的文件,我的HDFS是否会危险地接近满(因为它似乎会被复制3次,使用当前剩余的150GB)?

Cha*_*aos 14

让我们清楚地定义每个术语的含义.

  1. 配置容量:HDFS可用于存储的总容量.因此,如果您有4个节点且每个节点具有50 GB容量,则配置的容量将为200 GB.在配置容量的情况下,复制因子无关紧要.

  2. DFS已使用:这是HDFS已用完的存储空间量.划分DFS由复制因子使用,以获取存储而不复制的文件的实际大小.所以,如果你使用的是DFS 60 GB,以及您的复制因子为3,你的文件的实际大小为60/3 = 20 GB.

  3. DFS剩余:这是HDFS仍可用的存储空间量.如果您有150 GB的剩余存储空间,这意味着您可以存储最多150/3 = 50 GB的文件,而不会超出您的配置容量(假设复制因子= 3).

  4. 当前容量:在为元数据分配空间后可用于存储用户文件的存储空间量.区别:(Configured capacity - Present capacity)用于存储文件系统元数据.和inode信息.

希望这清除它.