elm*_*lto 5 hadoop apache-spark
我正在尝试访问 s3 上_以 Apache Spark开头的 gz 文件。不幸的是,spark 认为这些文件不可见并返回Input path does not exist: s3n:.../_1013.gz. 如果我删除下划线,它会发现该文件就好了。
我尝试向 hadoopConfig 添加自定义 PathFilter:
package CustomReader
import org.apache.hadoop.fs.{Path, PathFilter}
class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])
Run Code Online (Sandbox Code Playgroud)
但我仍然有同样的问题。有任何想法吗?
系统:Apache Spark 1.6.0 和 Hadoop 2.3
文件以 _ 和 . 是隐藏文件。
并且 hiddenFileFilter 将始终被应用。它是在方法内部添加的org.apache.hadoop.mapred.FileInputFormat.listStatus
检查这个答案,哪些文件被映射器忽略为输入?
| 归档时间: |
|
| 查看次数: |
2522 次 |
| 最近记录: |