pyspark:如何检查hdfs中是否存在文件

Question

pyspark:如何检查hdfs中是否存在文件

A7m*_*med 8 filesystems hadoop hdfs apache-spark pyspark

我想在通过SparkContext加载之前检查hdfs中是否存在多个文件.我用pyspark.我试过, os.system("hadoop fs -test -e %s" %path) 但由于我有很多路要检查,工作崩溃了.我也试过sc.wholeTextFiles(parent_path),然后按键过滤.但它崩溃也是因为parent_path包含很多子路径和文件.你可以帮帮我吗？

Answer 1

Jos*_*emy 1

正如特里斯坦·里德所说：

...（Spark）它可以读取多种格式，并且支持 Hadoop glob 表达式，这对于从 HDFS 中的多个路径读取非常有用，但它没有我知道的用于遍历目录或的内置工具文件，也没有特定于与 Hadoop 或 HDFS 交互的实用程序。

无论如何，这是他对相关问题的回答：Pyspark: get list of files/directories on HDFS path

一旦获得目录中的文件列表，就可以轻松检查特定文件是否存在。

我希望它能有所帮助。

归档时间：	10 年，2 月前
查看次数：	8572 次
最近记录：	8 年，9 月前