小编Cow*_*Owl的帖子

PySpark:如何在 PySpark SQL 中创建计算列?

使用 PySpark SQL 并给定 3 列,我想创建一个额外的列来划分两列,第三列是 ID 列。

df = sqlCtx.createDataFrame(
    [
        (1, 4, 2),
        (2, 5, 2),
        (3, 10, 4),
        (4, 50, 10)
    ],
    ('ID', 'X', 'Y')
)
Run Code Online (Sandbox Code Playgroud)

这是所需的输出:

+----+----+----+---------------------+
| ID | x  | y  | z (expected result) |
+----+----+----+---------------------+
|  1 |  4 |  2 | 2                   |
|  2 |  5 |  2 | 2.5                 |
|  3 | 10 |  4 | 2.5                 |
|  4 | 50 | 10 | 5                   |
+----+----+----+---------------------+ …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

3
推荐指数
1
解决办法
4666
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1