我正在研究hdfs,然后我发现了一些不为超级用户执行权限检查的东西.如果我的linux用户是沙地,我想要向超级用户群添加沙地.因此,不会发生权限被拒绝,在hdfs配置中这样做是否可行.如果将用户分配给超级组没有问题,那么该怎么做呢?
我有4个数据节点集群,每个节点上的hdfs结构如下所示

我面临磁盘空间问题,因为你可以看到hdfs中的/ tmp文件夹占用了更多的空间(217GB).所以我试图调查/ tmp文件夹中的数据.我找到了以下临时文件.我访问了这些临时文件夹,每个文件夹包含一些10gb到20GB大小的部分文件.我想清除这个/ tmp目录.任何人都可以让我知道删除这些tmp文件夹或部分文件的后果.它会影响我的集群吗?

我正在运行cloudera安装的以下命令
./cloudera-manager-installer.bin
Run Code Online (Sandbox Code Playgroud)
接受oracle许可后,我的日志 错误安装失败,请转到2.install-oracle-j2sdk1.7.log
以下是日志文件的内容
Loaded plugins: fastestmirror, priorities, refresh-packagekit, security
Loading mirror speeds from cached hostfile
* base: mirrors.syringanetworks.net
* extras: mirror.sanctuaryhost.com
* updates: centos.corenetworks.net
Setting up Install Process
No package oracle-j2sdk1.7 available.
Error: Nothing to do
Run Code Online (Sandbox Code Playgroud)
有人有这种错误吗?给出建议?
我使用tar文件方法在3台机器上设置了spark.我没有做任何高级配置,我编辑了slaves文件并启动了master和worker.我能在8080端口看到sparkUI.现在我想在spark集群上运行简单的python脚本.
import sys
from random import random
from operator import add
from pyspark import SparkContext
if __name__ == "__main__":
"""
Usage: pi [partitions]
"""
sc = SparkContext(appName="PythonPi")
partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2
n = 100000 * partitions
def f(_):
x = random() * 2 - 1
y = random() * 2 - 1
return 1 if x ** 2 + y ** 2 < 1 else 0
count = sc.parallelize(xrange(1, n + 1), partitions).map(f).reduce(add)
print "Pi …Run Code Online (Sandbox Code Playgroud) 我有 2 台 linux 机器。在一台机器上,这些是用户:
sysadmin2:x:4201:4200::/home/sysadmin2:/bin/bash
appadmin1:x:4100:4100::/home/appadmin1:/bin/bash
appadmin2:x:4101:4100::/home/appadmin2:/bin/bash
dataadmin1:x:4300:4300::/home/dataadmin1:/bin/bash
dataadmin2:x:4301:4300::/home/dataadmin2:/bin/bash
sysadmin1:x:4200:4200::/home/sysadmin1:/bin/bash
Run Code Online (Sandbox Code Playgroud)
我想将这些复制到另一台机器上。如何使用相同的 uid 和 gid 值创建这些用户?有没有办法将它们复制到另一台机器上?