我正在使用n列的PySpark DataFrame.我有一组m列(m <n),我的任务是选择包含最大值的列.
例如:
输入:PySpark DataFrame包含col_1 = [1,2,3],col_2 = [2,1,4],col_3 = [3,2,5].
在该示例中,Ouput = col_4 = max(col1,col_2,col_3)= [3,2,5].
在这个问题中解释的熊猫有类似的东西.
有什么方法可以在PySpark中执行此操作,还是应该将我的PySpark df转换为Pandas df然后执行操作?