j9d*_*9dy 8 hadoop apache-spark apache-tez apache-flink tez
在Saha等人的Tez论文中,显示了Hadoop 2与Tez的以下模块化架构:
为什么有人会在Tez上运行Spark/Flink?
有什么好处?更好地利用YARN?
如果我理解正确的话,理论上在 tez 上运行 Spark 可以带来更好的 DAG。例如,这可以应用于机器学习迭代。
\n\n相关段落如下。
\n\n\n\n\n我们能够将编译后的 Spark\n DAG 编码为 Tez DAG,并在未运行 Spark 引擎服务的 YARN 集群中成功运行它。用户定义的 Spark 代码被序列化到 Tez 处理器有效负载中,并注入到反序列化并执行用户代码的通用 Spark 处理器中。这允许未经修改的 Spark 程序使用 Spark\xe2\x80\x99 自己的运行时运算符在 YARN 上运行...Tez 会话还可以通过将每次迭代 DAG 提交到共享目录来使 Spark 机器学习迭代\n 高效运行。 \n Tez 会话。这项工作是一个实验原型,不属于 Spark 项目\n
\n
话虽这么说,但这种组合似乎从未在实验环境之外实现过,因此即使有充分的理由将 Tez 与 Spark 等工具相结合,但目前这对任何项目都没有帮助。
\n\n另外,我个人的期望是,除非您有非常特定的工作负载,否则如果 Tez DAG 显着优于普通 Spark DAG,我会感到惊讶。
\n 归档时间: |
|
查看次数: |
422 次 |
最近记录: |