A7m*_*med 8 filesystems hadoop hdfs apache-spark pyspark
我想在通过SparkContext加载之前检查hdfs中是否存在多个文件.我用pyspark.我试过,
os.system("hadoop fs -test -e %s" %path)
但由于我有很多路要检查,工作崩溃了.我也试过sc.wholeTextFiles(parent_path),然后按键过滤.但它崩溃也是因为parent_path包含很多子路径和文件.你可以帮帮我吗?
正如特里斯坦·里德所说:
...(Spark)它可以读取多种格式,并且支持 Hadoop glob 表达式,这对于从 HDFS 中的多个路径读取非常有用,但它没有我知道的用于遍历目录或的内置工具文件,也没有特定于与 Hadoop 或 HDFS 交互的实用程序。
无论如何,这是他对相关问题的回答:Pyspark: get list of files/directories on HDFS path
一旦获得目录中的文件列表,就可以轻松检查特定文件是否存在。
我希望它能有所帮助。
| 归档时间: |
|
| 查看次数: |
8572 次 |
| 最近记录: |