在apache spark中访问以下划线开头的文件

Question

在apache spark中访问以下划线开头的文件

我正在尝试访问 s3 上_以 Apache Spark开头的 gz 文件。不幸的是，spark 认为这些文件不可见并返回Input path does not exist: s3n:.../_1013.gz. 如果我删除下划线，它会发现该文件就好了。

我尝试向 hadoopConfig 添加自定义 PathFilter：

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

Run Code Online (Sandbox Code Playgroud)

但我仍然有同样的问题。有任何想法吗？

系统：Apache Spark 1.6.0 和 Hadoop 2.3

Answer 1

Roc*_*ang 5

文件以 _ 和 . 是隐藏文件。

并且 hiddenFileFilter 将始终被应用。它是在方法内部添加的org.apache.hadoop.mapred.FileInputFormat.listStatus

检查这个答案，哪些文件被映射器忽略为输入？

归档时间：	9 年，7 月前
查看次数：	2522 次
最近记录：	9 年，7 月前