Scala 和 DataBricks：获取文件列表

Question

Scala 和 DataBricks：获取文件列表

con*_*con 3 scala amazon-s3 apache-spark databricks

我正在尝试在 Scala 内的 Databricks 上的 S3 存储桶中创建文件列表，然后按正则表达式拆分。我对 Scala 很陌生。蟒蛇等价物将是

all_files = map(lambda x: x.path, dbutils.fs.ls(folder))
filtered_files = filter(lambda name: True if pattern.match(name) else False, all_files)

Run Code Online (Sandbox Code Playgroud)

但我想在 Scala 中做到这一点。

来自https://alvinalexander.com/scala/how-to-list-files-in-directory-filter-names-scala

import java.io.File
def getListOfFiles(dir: String):List[File] = {
    val d = new File(dir)
    if (d.exists && d.isDirectory) {
        d.listFiles.filter(_.isFile).toList
    } else {
        List[File]()
    }
}

Run Code Online (Sandbox Code Playgroud)

但是，这会产生一个空列表。

我也想过

var all_files: List[Any] = List(dbutils.fs.ls("s3://bucket"))

Run Code Online (Sandbox Code Playgroud)

但这会产生一个列表，例如（长度为 1）

all_files: List[Any] = List(WrappedArray(FileInfo(s3://bucket/.internal_name.pl.swp, .internal_name.pl.swp, 12288), FileInfo(s3://bucket/file0, 10223616), FileInfo(s3://bucket/, file1, 0), ....)

Run Code Online (Sandbox Code Playgroud)

其长度为 1。我无法将其转换为数据帧，如How to iterate scalawrappedArray所建议的那样？(Spark)这不能用。

如何在 Scala 中生成文件列表，然后遍历它们？

Answer 1

Rap*_*oth 6

你应该做：

val name : String = ???   
val all_files : Seq[String] = dbutils.fs.ls("s3://bucket").map(_.path).filter(_.matches(name))

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，3 月前
查看次数：	8461 次
最近记录：	7 年，3 月前