小编get*_*y22的帖子

用字典键值替换spark df中一列的值(pyspark)

我在pyspark中遇到了数据转换任务.我想用df中的一个列的所有值替换字典中指定的键值对.

dict = {'A':1, 'B':2, 'C':3}

Run Code Online (Sandbox Code Playgroud)

我的df看起来像这样:

+-----------++-----------+
|       col1||       col2|
+-----------++-----------+
|          B||          A|
|          A||          A|
|          A||          A|
|          C||          B|
|          A||          A|
+-----------++-----------+

Run Code Online (Sandbox Code Playgroud)

现在我想用dict中定义的键值对替换col1的所有值.

期望的输出:

+-----------++-----------+
|       col1||       col2|
+-----------++-----------+
|          2||          A|
|          1||          A|
|          1||          A|
|          3||          B|
|          1||          A|
+-----------++-----------+

Run Code Online (Sandbox Code Playgroud)

我试过了