Ama*_*mar 8 hadoop apache-spark rdd
任何人都可以在Spark的背景下解释细粒度转换与粗粒度转换之间的区别吗?我正在阅读有关RDD的论文(https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf),并且不太清楚粗略转换如何以有效的方式提供容错.
aar*_*man 15
细粒度更新将是对数据库中的一个记录的更新,而粗粒度通常是函数运算符(如在spark中使用),例如map,reduce,flatMap,join.Spark的模型利用了这一点,因为一旦它保存了你的小DAG操作(与你正在处理的数据相比很小),只要原始数据仍然存在,它就可以使用它来重新计算.随着你不能重新计算,因为节省更新费用可能高达保存数据本身,基本上如果你更新每个记录了数十亿分别已保存的信息来计算每个更新,而与粗颗粒可以节省细粒度更新一个更新十亿条记录的功能.显然,这是以不像细粒度模型那样灵活为代价的.
归档时间: |
|
查看次数: |
3423 次 |
最近记录: |