我是 Spark 的新手。我可以在 python Pandas&Numpy 中对数组进行求和、减法或乘法。但是我在 Spark (python) 中做类似的事情有困难。我在 Databricks 上。
例如,这种方法给出了一个巨大的错误消息,我不想在这里复制粘贴:
differencer=udf(lambda x,y: x-y, ArrayType(FloatType()))
df.withColumn('difference', differencer('Array1', 'Array2'))
架构如下所示:
root
|-- col1: integer (nullable = true)
|-- time: timestamp (nullable = true)
|-- num: integer (nullable = true)
|-- part: integer (nullable = true)
|-- result: integer (nullable = true)
|-- Array1: array (nullable = true)
| |-- element: float (containsNull = true)
|-- Array2: array (nullable = false)
| |-- element: float (containsNull = true)
Run Code Online (Sandbox Code Playgroud)
我只想创建一个减去这两个数组列的新列。其实,我会得到RMSE他们之间的。但是我认为一旦我学会了如何获得这种差异,我就可以处理它。 …