我是新手,我有一个问题.我有一个两步过程,第一步是将SUCCESS.txt文件写入HDFS上的某个位置.我的第二步是一个spark作业,必须在开始处理数据之前验证该SUCCESS.txt文件是否存在.
我检查了spark API并没有找到任何检查文件是否存在的方法.任何想法如何处理这个?
我找到的唯一方法是sc.textFile(hdfs:///SUCCESS.txt).count(),当文件不存在时会抛出异常.我必须捕获该异常并相应地编写我的程序.我真的不喜欢这种方法.希望找到更好的选择.