pti*_*obj 4 scala hdfs apache-spark
在我的hdfs-site.xml配置复制因子为1.
但是,在将结果写入hdfs时:
someMap.saveAsTextFile("hdfs://HOST:PORT/out")
Run Code Online (Sandbox Code Playgroud)
结果会自动复制3倍,覆盖我自己的复制因子.为了节省一些空间,我希望我的输出也有一个复制因子1.
怎么能告诉HDFS使用复制因子1?
我认为spark正在加载一个默认的hadoop配置,其复制设置为3.要覆盖它,您需要设置一个类似于此处可以找到的其他spark配置的环境变量或系统属性.
你可能想要这样的东西:
System.setProperty("spark.hadoop.dfs.replication", "1")
Run Code Online (Sandbox Code Playgroud)
或者在你的jvm启动中:
-Dspark.hadoop.dfs.replication=1
Run Code Online (Sandbox Code Playgroud)
希望这样的事情应该有效......
| 归档时间: |
|
| 查看次数: |
2247 次 |
| 最近记录: |