Gar*_*aso 2 scala apache-spark apache-spark-sql
有没有办法在 Scala 中将数据帧作为可选的输入函数参数传递?前任:
def test(sampleDF: DataFrame = df.sqlContext.emptyDataFrame): DataFrame = {
}
df.test(sampleDF)
Run Code Online (Sandbox Code Playgroud)
虽然我在这里传递了一个有效的数据框,但它总是被分配给一个空的数据框,我该如何避免这种情况?
是的,您可以将其dataframe作为参数传递给函数
比方说你有一个dataframe为
import sqlContext.implicits._
val df = Seq(
(1, 2, 3),
(1, 2, 3)
).toDF("col1", "col2", "col3")
Run Code Online (Sandbox Code Playgroud)
这是
+----+----+----+
|col1|col2|col3|
+----+----+----+
|1 |2 |3 |
|1 |2 |3 |
+----+----+----+
Run Code Online (Sandbox Code Playgroud)
你可以将它传递给一个函数,如下所示
import org.apache.spark.sql.DataFrame
def test(sampleDF: DataFrame): DataFrame = {
sampleDF.select("col1", "col2") //doing some operation in dataframe
}
val testdf = test(df)
Run Code Online (Sandbox Code Playgroud)
testdf 将是
+----+----+
|col1|col2|
+----+----+
|1 |2 |
|1 |2 |
+----+----+
Run Code Online (Sandbox Code Playgroud)
已编辑
正如 Eliasah 指出的,@Garipaso 想要可选参数。这可以通过将函数定义为
def test(sampleDF: DataFrame = sqlContext.emptyDataFrame): DataFrame = {
if(sampleDF.count() > 0) sampleDF.select("col1", "col2") //doing some operation in dataframe
else sqlContext.emptyDataFrame
}
Run Code Online (Sandbox Code Playgroud)
如果我们传递一个有效的数据帧作为
test(df).show(false)
Run Code Online (Sandbox Code Playgroud)
它将输出为
+----+----+
|col1|col2|
+----+----+
|1 |2 |
|1 |2 |
+----+----+
Run Code Online (Sandbox Code Playgroud)
但是如果我们不通过参数作为
test().show(false)
Run Code Online (Sandbox Code Playgroud)
我们会得到空的数据框
++
||
++
++
Run Code Online (Sandbox Code Playgroud)
我希望答案有帮助
| 归档时间: |
|
| 查看次数: |
12275 次 |
| 最近记录: |