我的应用程序创建了大量文件,每个文件高达100MB.目前我们将这些文件存储在文件系统中,该文件系统运行良好.但我想知道是否有更好的解决方案将文件存储在某种文件数据库中.数据库的简单优势在于它是否可以拆分文件并以小块而不是一个100mb文件存储.
当我在本地运行spark(非hdfs)时,RDD saveAsObjectFile将文件写入本地文件系统(例如:path /data/temp.txt)
当我在YARN集群上运行spark时,RDD saveAsObjectFile将文件写入hdfs.(例如:path /data/temp.txt)
有没有办法在YARN集群上运行spark时明确提及本地文件系统而不是hdfs.