现在Spark正在进行中.Spark使用scala语言来加载和执行程序以及python和java.RDD用于存储数据.但是,我无法理解Spark的架构,它是如何在内部运行的.
请告诉我Spark Architecture以及它如何在内部工作?
apache-spark
血统如何帮助重新计算数据?
例如,我有几个节点计算数据,每个节点30分钟.如果一个人在15分钟后失败了,我们是否可以使用血统重新计算15分钟内处理的数据而不再给15分钟?
hadoop bigdata apache-spark data-lineage
apache-spark ×2
bigdata ×1
data-lineage ×1
hadoop ×1