我有一个像这样的 Spark 数据框......
| ID | A | 乙 | C | D |
|---|---|---|---|---|
| 编号1 | 1 | 0 | 0 | 2 |
| 编号2 | 0 | 3 | 0 | 1 |
| id3 | 1 | 2 | 5 | 0 |
| id4 | 4 | 0 | 0 | 1 |
我想要一个基于这个逻辑的新数据框......
那么结果就会是这样的……
| ID | 新专栏 |
|---|---|
| 编号1 | 广告 |
| 编号2 | 乙、丁 |
| id3 | 甲、乙、丙 |
| id4 | 广告 |
我的努力:
A)对于第一步,我想我会将整数转换为列的名称......所以它看起来像这样......
| ID | A | 乙 | C | D |
|---|---|---|---|---|
| 编号1 | A | 0 | 0 | D |
| 编号2 | 0 | 乙 | 0 | D |
| id3 | A | 乙 | C | 0 |
| id4 | A | 0 | 0 | D |
我尝试使用 UDF 但没有成功...
def CountSelect(colname, x):
if x>0 :
return …Run Code Online (Sandbox Code Playgroud)