我正在运行一个带有输入的spark作业,该输入由同一个上一个作业生成.现在,作业将结果输出到HDFS以便下次运行读入,有没有办法将每个作业的输出缓存到spark中,以便以下运行不必从HDFS读取?
更新:或者是否可以在不同的应用程序之间共享RDD?
您直接无法实现这一目标。但是,几乎没有解决方案可以为您提供帮助。
正如@ morfious902002所提到的,您可以使用Alluxio(但是您需要在集群上安装它)提供了分层存储(内存/ hdfs / s3)。
另一个选择是使用具有相同spark上下文的spark-jobserver或类似工具,然后通过REST api将作业提交到此服务器。由于所有作业将在相同的长期环境下执行,因此您将能够在作业之间共享RDD。
| 归档时间: |
|
| 查看次数: |
955 次 |
| 最近记录: |