使用 PySpark SQL 并给定 3 列,我想创建一个额外的列来划分两列,第三列是 ID 列。
df = sqlCtx.createDataFrame(
[
(1, 4, 2),
(2, 5, 2),
(3, 10, 4),
(4, 50, 10)
],
('ID', 'X', 'Y')
)
Run Code Online (Sandbox Code Playgroud)
这是所需的输出:
+----+----+----+---------------------+
| ID | x | y | z (expected result) |
+----+----+----+---------------------+
| 1 | 4 | 2 | 2 |
| 2 | 5 | 2 | 2.5 |
| 3 | 10 | 4 | 2.5 |
| 4 | 50 | 10 | 5 |
+----+----+----+---------------------+ …Run Code Online (Sandbox Code Playgroud)