如何获取Hadoop文件系统中的绝对路径?

Car*_*ten 4 java hadoop scala hdfs apache-spark

我想获取 HDFS 文件系统中目录及其子目录中的所有文件的列表。这是我为了递归读取目录中的所有文件而编写的方法:

def getAllFiles(dir: Path, fs: FileSystem, recursive: Boolean = true): Seq[Path] = {
  val iter = fs.listFiles(dir, recursive)
  val files = new ListBuffer[Path]()

  while (iter.hasNext()) {
    val p = iter.next().getPath
      files.append(p)
    }
    files
}
Run Code Online (Sandbox Code Playgroud)

结果是org.apache.hadoop.fs.Path我需要在后续步骤中处理的元素列表。因此,我需要完整路径。我的问题是:获得完整绝对路径的最佳方法是什么

到目前为止,我使用递归方法来创建路径字符串(Scala):

def fullPath(p: Path): String = {
  if (p.isRoot())
    p.getName
  else
    fullPath(p.getParent) + Path.SEPARATOR + p.getName
}
Run Code Online (Sandbox Code Playgroud)

是否没有通过 Path API 更直接的方法?

我遇到过问题#18034758,但使用listFiles()而不是listStatus()似乎是递归列出目录中文件的首选方法,因此对于这个用例来说,答案似乎有点麻烦。

Bas*_*Roy 5

依赖“toString”可能不是一个好主意。如果 toString 的定义发生变化怎么办?我认为最好做类似的事情

path.toUri().getRawPath()
Run Code Online (Sandbox Code Playgroud)