从Hadoop删除文件/文件夹

cev*_*ira 17 hadoop amazon-s3 amazon-web-services elastic-map-reduce

我在分析日志文件的数据管道中运行EMR活动,当我的管道发生故障时,我收到以下错误:

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy already exists
    at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:121)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:944)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:905)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1132)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:905)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:879)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1316)
    at com.valtira.datapipeline.stream.CloudFrontStreamLogProcessors.main(CloudFrontStreamLogProcessors.java:216)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
    at java.lang.reflect.Method.invoke(Method.java:597)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:187)
Run Code Online (Sandbox Code Playgroud)

如何从Hadoop中删除该文件夹?

gre*_*dha 50

当你说从Hadoop删除时,你的意思是从HDFS中删除.

要从HDFS中删除某些内容,请执行以下操作之一

从命令行:

  • 弃用方式:

hadoop dfs -rmr hdfs://path/to/file

  • 新方式(使用hadoop 2.4.1):

hdfs dfs -rm -r hdfs://path/to/file

或者来自java:

FileSystem fs = FileSystem.get(getConf());
fs.delete(new Path("path/to/file"), true); // delete file, true for recursive 
Run Code Online (Sandbox Code Playgroud)


Udi*_*nki 15

要从hdfs中删除文件,您可以使用以下给定的命令:

hadoop fs -rm -r -skipTrash /path_to_file/file_name
Run Code Online (Sandbox Code Playgroud)

要从hdfs中删除文件夹,您可以使用以下给定的命令:

hadoop fs -rm -r -skipTrash /folder_name
Run Code Online (Sandbox Code Playgroud)

您需要使用-skipTrash选项,否则将提示错误.


Jos*_*der 7

使用Scala:

val fs:FileSystem = FileSystem.get(new URI(filePath), sc.hadoopConfiguration);
fs.delete(new Path(filePath), true) // true for recursive
Run Code Online (Sandbox Code Playgroud)

sc是SparkContext


cev*_*ira 1

我联系了 AWS 支持,问题似乎是我正在分析的日志文件非常大,导致内存出现问题。我在 EMRCluster 部分中添加了管道定义“masterInstanceType”:“m1.xlarge”并且它起作用了。

  • 这是您问题的答案,但不是问题标题的答案。 (4认同)