对不起,伙计,只是一个简单的问题,但我无法在谷歌上找到确切的问题.关于什么是dfs.replication的问题是什么意思?如果我在hdfs中创建了一个名为filmdata.txt的文件,如果我设置了dfs.replication = 1,那么它是完全一个文件(一个是filmdata.txt)吗?还是主文件(filmdata.txt)hadoop会创建另一个复制文件.不久之后说:如果设置dfs.replication = 1,总共有一个filmdata.txt,或者两个filmdata.txt?提前致谢
为确保数据的高可用性,Hadoop会复制数据.
当我们将文件存储到HDFS中时,hadoop框架将文件拆分为一组块(64 MB或128 MB),然后这些块将在集群节点上复制.配置dfs.replication用于指定需要多少次复制.
dfs.replication的默认值为3,但这是可配置的,具体取决于您的群集设置.
希望这可以帮助.