Tachyon默认是由Apache Spark中的RDD实现的吗？

Question

Tachyon默认是由Apache Spark中的RDD实现的吗？

Him*_*hra 8 bigdata in-memory-database apache-spark rdd alluxio

我正在尝试了解Spark的内存功能.在这个过程中,我遇到了Tachyon ,它基本上在内存数据层中,通过使用沿袭系统提供容错而无需复制,并通过检查数据集来减少重新计算.现在让人感到困惑的是,Spark的标准RDD系统也可以实现所有这些功能.所以我想知道RDD在幕后实施Tachyon来实现这些功能吗？如果不是Tachyon的用途,那么它的所有工作都可以通过标准RDD来完成.或者我在将这两者联系起来时犯了一些错误？一个详细的解释或链接将是一个很大的帮助.谢谢.

Answer 1

Rob*_*obV 1

您链接的论文中的内容并不反映 Tachyon 作为发布开源项目的现实，该论文的部分内容仅作为研究原型存在，从未完全集成到 Spark/Tachyon 中。

OFF_HEAP当您通过Tachyon将数据持久保存到存储级别时rdd.persist(StorageLevel.OFF_HEAP)，它会使用 Tachyon 将该数据作为文件写入 Tachyon 的内存空间。这会将其从 Java 堆中删除，从而为 Spark 提供更多的堆内存来使用。

它当前不写入沿袭信息，因此如果您的数据太大而无法放入您配置的 Tachyon 集群中，则 RDD 的内存部分将丢失，并且您的 Spark 作业可能会失败。

归档时间：	10 年，9 月前
查看次数：	708 次
最近记录：	7 年，4 月前