Him*_*hra 8 bigdata in-memory-database apache-spark rdd alluxio
我正在尝试了解Spark的内存功能.在这个过程中,我遇到了Tachyon ,它基本上在内存数据层中,通过使用沿袭系统提供容错而无需复制,并通过检查数据集来减少重新计算.现在让人感到困惑的是,Spark的标准RDD系统也可以实现所有这些功能.所以我想知道RDD在幕后实施Tachyon来实现这些功能吗?如果不是Tachyon的用途,那么它的所有工作都可以通过标准RDD来完成.或者我在将这两者联系起来时犯了一些错误?一个详细的解释或链接将是一个很大的帮助.谢谢.
您链接的论文中的内容并不反映 Tachyon 作为发布开源项目的现实,该论文的部分内容仅作为研究原型存在,从未完全集成到 Spark/Tachyon 中。
OFF_HEAP当您通过Tachyon将数据持久保存到存储级别时rdd.persist(StorageLevel.OFF_HEAP),它会使用 Tachyon 将该数据作为文件写入 Tachyon 的内存空间。这会将其从 Java 堆中删除,从而为 Spark 提供更多的堆内存来使用。
它当前不写入沿袭信息,因此如果您的数据太大而无法放入您配置的 Tachyon 集群中,则 RDD 的内存部分将丢失,并且您的 Spark 作业可能会失败。
| 归档时间: |
|
| 查看次数: |
708 次 |
| 最近记录: |