如何用新列覆盖Spark数据帧中的整个现有列？

Question

如何用新列覆盖Spark数据帧中的整个现有列？

Geo*_*eRF 6 dataframe apache-spark apache-spark-sql pyspark apache-spark-mllib

我想用一个新的列覆盖一个spark列,这是一个二进制标志.

我尝试直接覆盖列id2,但为什么它不像Pandas中的inplace操作那样工作？

如何在不使用withcolumn()创建新列和drop()来删除旧列的情况下执行此操作？

我知道spark数据帧是不可变的,这是因为没有使用withcolumn()&drop()而有不同的覆盖方式？

    df2 = spark.createDataFrame(
        [(1, 1, float('nan')), (1, 2, float(5)), (1, 3, float('nan')), (1, 4, float('nan')), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
        ('session', "timestamp1", "id2"))

    df2.select(df2.id2 > 0).show()

+---------+
|(id2 > 0)|
+---------+
|     true|
|     true|
|     true|
|     true|
|     true|
|     true|
|     true|
+---------+
 # Attempting to overwriting df2.id2
    df2.id2=df2.select(df2.id2 > 0).withColumnRenamed('(id2 > 0)','id2')
    df2.show()
#Overwriting unsucessful
+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
|      1|         1| NaN|
|      1|         2| 5.0|
|      1|         3| NaN|
|      1|         4| NaN|
|      1|         5|10.0|
|      1|         6| NaN|
|      1|         6| NaN|
+-------+----------+----+

Run Code Online (Sandbox Code Playgroud)

Answer 1

Sha*_*ala 12

您可以使用

d1.withColumnRenamed("colName", "newColName")
d1.withColumn("newColName", $"colName")

Run Code Online (Sandbox Code Playgroud)

在withColumnRenamed重命名现有列,以新名称

将withColumn创建一个具有给定名称的新列.如果已存在,则会创建一个具有相同名称的新列,并删除旧列.

在您的情况下,它不会在原始数据帧中更改df2它会更改列的名称并作为新数据帧返回,该数据帧应分配给新变量以供进一步使用.

`d3 = df2.select((df2.id2 > 0).alias("id2")`

Run Code Online (Sandbox Code Playgroud)

在你的情况下应该工作正常

希望这可以帮助!

Answer 2

Pio*_*ski 9

如上所述，不可能覆盖 DataFrame 对象，它是不可变的集合，因此所有转换都会返回新的 DataFrame。

达到您想要的效果的最快方法是使用withColumn：

df = df.withColumn("col", some expression)

Run Code Online (Sandbox Code Playgroud)

其中col是您要“替换”的列的名称。运行后，该变量值df将被新的 DataFrame 替换为新的 column 值col。您可能想将其分配给新变量。

在你的情况下它可以看起来：

df2 = df2.withColumn("id2", (df2.id2 > 0) & (df2.id2 != float('nan')))

Run Code Online (Sandbox Code Playgroud)

我添加了与的比较nan，因为我假设您不想将其视为nan大于 0。

如果列已经存在，withColumn() 不会抛出异常，如果列存在，它会删除旧列并使用更改数据创建一个新列。 (4认同)

归档时间：	8 年，5 月前
查看次数：	11821 次
最近记录：	6 年，10 月前