哪个是高效的,Dataframe或RDD还是hiveql？

在较高的层次上,有两种优化.首先,Catalyst应用逻辑优化,例如谓词下推.优化器可以将过滤器谓词下推到数据源中,使物理执行能够跳过不相关的数据.在Parquet文件的情况下,可以跳过整个块,并且可以通过字典编码将字符串上的比较转换为更便宜的整数比较.在关系数据库的情况下,谓词被下推到外部数据库中以减少数据流量.其次,Catalyst将操作编译为物理计划以执行,并为那些通常比手写代码更优化的计划生成JVM字节码.例如,它可以在广播连接和随机连接之间智能地选择以减少网络流量.它还可以执行较低级别的优化,例如消除昂贵的对象分配和减少虚函数调用.因此,我们希望在迁移到DataFrames时,对现有Spark程序的性能有所改进.

以下是性能基准测试https://databricks.com/wp-content/uploads/2015/02/Screen-Shot-2015-02-16-at-9.46.39-AM.png

Answer 2

lev*_*lev 6

使用催化剂引擎优化DataFrames和spark sql查询,因此我猜他们会产生类似的性能(假设您使用的版本> = 1.3)

两者都应该比简单的RDD操作更好,因为对于RDD,spark没有任何关于数据类型的知识,所以它不能做任何特殊的优化

归档时间：	10 年，5 月前
查看次数：	5631 次
最近记录：	9 年，4 月前