小编Jay*_*ahu的帖子

如果我不断在其中添加列,我应该坚持Spark数据帧吗？

我在网上搜索的任何论坛都找不到关于以下主题的讨论.这可能是因为我是Spark和Scala的新手,我不是在问一个有效的问题.如果有任何现有的线程讨论相同或类似的主题,链接将非常有用.:)

我正在开发一个使用Spark和Scala的过程,并通过读取大量表来创建一个文件,并通过将逻辑应用于从表中获取的数据来获取大量字段.所以,我的代码结构是这样的:

val driver_sql = "SELECT ...";

var df_res = spark.sql(driver_sql)

var df_res = df_res.withColumn("Col1", <logic>)

var df_res = df_res.withColumn("Col2", <logic>)

var df_res = df_res.withColumn("Col3", <logic>)
.
.
.

var df_res = df_res.withColumn("Col20", <logic>)

Run Code Online (Sandbox Code Playgroud)

基本上,有一个驱动程序查询,它创建"驱动程序"数据帧.之后,基于驱动程序数据帧中的一个或多个键执行单独的逻辑(函数)以添加新的列/字段."逻辑"部分并不总是单行代码,有时,它是一个单独的函数,它运行另一个查询并在df_res上进行某种连接并添加一个新列.记录计数也发生了变化,因为在某些情况下我使用"内部"连接与其他表/数据帧.

所以,这是我的问题: