select 语句对 Spark DataFrames 的性能有什么影响？

Mar*_*nne 5 scala apache-spark apache-spark-sql

在 Spark DataFrames 上使用许多 select 语句或表达式，我想知道它们对由操作触发后的后续转换的性能影响。

给定一个df包含 10 列 a 到 j的数据框。

如果我as对每列进行列重命名，会有什么影响？

df.select( df("a").as("1"), ..., df("j").as("10"))
如果我选择一个子集（例如 5 列）怎么办

val df2 = df.select( df("a"), ..., df("e") )

湾如何处理 Spark 这个投影？是df仍然保留（如df2为投影），所以df可以作为一种参考？或者是df2新鲜创建并df丢弃？（这里忽略任何坚持）
中Column使用的一般表达式的影响如何select？
上述情况的性能测试是否可用？性能测量一般在某处可用吗？如果没有，如何最好地衡量性能？

归档时间：	10 年，1 月前
查看次数：	484 次
最近记录：	10 年，1 月前

如何使用scala trait与`self`引用？ 29

Scala方式来编程一堆if 16

"内联"val后出现奇怪的类型错误 9

如何在Scala中模拟依赖类型 8

拆分使用Prepend [A,B]连接的HList 8

如何在Scala中使用通配符来获得更高级的类型？ 7

使用hprof分析循环的scala 6

如何在Eclipse IDE中找到安装的Scala版本？ 6

SparkSQL - 访问嵌套结构Row(field1,field2 = Row(..)) 5

从Nexus获取火花作业罐 4

如何在Windows上安装pip？ 2469

每位程序员应阅读的最具影响力的单一书籍是什么？ 1439

为什么我需要一直做`--set-upstream`？ 1364

什么是右值,左值,x值,glvalues和prvalues？ 1291

为什么使用Redux而不是Facebook Flux？ 1126

如何在Vim中有效地处理多个文件？ 1074

获取Oracle中所有表的列表？ 1073

Ukkonen的简明英语后缀树算法 1065

返回IEnumerable <T>与IQueryable <T> 1051

如何在Ruby on Rails中获取当前的绝对URL？ 1030