我有两个版本的Python.当我使用spark-submit启动spark应用程序时,应用程序使用默认版本的Python.但是,我想使用另一个.如何指定要使用的spark-submit的Python版本?
我想在通过SparkContext加载之前检查hdfs中是否存在多个文件.我用pyspark.我试过,
os.system("hadoop fs -test -e %s" %path)
但由于我有很多路要检查,工作崩溃了.我也试过sc.wholeTextFiles(parent_path),然后按键过滤.但它崩溃也是因为parent_path包含很多子路径和文件.你可以帮帮我吗?