Mar*_*nne 5 scala apache-spark apache-spark-sql
在 Spark DataFrames 上使用许多 select 语句或表达式,我想知道它们对由操作触发后的后续转换的性能影响。
给定一个df包含 10 列 a 到 j的数据框。
如果我as对每列进行列重命名,会有什么影响?
df.select( df("a").as("1"), ..., df("j").as("10"))
如果我选择一个子集(例如 5 列)怎么办
val df2 = df.select( df("a"), ..., df("e") )
湾 如何处理 Spark 这个投影?是df仍然保留(如df2为投影),所以df可以作为一种参考?或者是df2新鲜创建并df丢弃?(这里忽略任何坚持)
中Column使用的一般表达式的影响如何select?
上述情况的性能测试是否可用?性能测量一般在某处可用吗?如果没有,如何最好地衡量性能?