查找 Pyspark 各列的比率

Question

查找 Pyspark 各列的比率

假设我有以下 DF。

df = sqlContext.createDataFrame(sc.parallelize(
    [('a',0, 1,1), ('b',1, 3,4), ('c',2, 5,7)]), ('acc_no','col_1', 'col_2','sum'))

+------+-----+-----+---+
|acc_no|col_1|col_2|sum|
+------+-----+-----+---+
|     a|    0|    1|  1|
|     b|    1|    3|  4|
|     c|    2|    5|  7|
+------+-----+-----+---+

Run Code Online (Sandbox Code Playgroud)

我想找到为col_1和col_2在总和列上的百分比创建一个新列，如下所示。

+------+-----+-----+---+---------+---------+
|acc_no|col_1|col_2|sum|perc_col1|perc_col2|
+------+-----+-----+---+---------+---------+
|     a|    0|    1|  1|        0|      100|
|     b|    1|    3|  4|       25|       75|
|     c|    2|    5|  7|       29|       71|
+------+-----+-----+---+---------+---------+

Run Code Online (Sandbox Code Playgroud)

我知道我可以使用以下代码为每个 col_1 和 col_2 添加百分比列

df.withColumn('perc_col1',col('col_1')/col('sum')*100).withColumn('perc_col2',col('col_2')/col('sum')*100).show()

Run Code Online (Sandbox Code Playgroud)

但是，如果我有数百列并且我想避免编写数百行代码，我该怎么办？

Answer 1

ank*_*_91 5

在这种情况下withcolumn，您可以使用 for 循环来代替df.select，并使用.aliasand重命名f-strings

col_list = ['col_1','col_2'] #list of multiple columns
out = df.select("*",*[F.round((F.col(i)/F.col("sum"))*100,2).alias(f"perc_{i}")
                      for i in col_list])

Run Code Online (Sandbox Code Playgroud)

out.show()
+------+-----+-----+---+----------+----------+
|acc_no|col_1|col_2|sum|perc_col_1|perc_col_2|
+------+-----+-----+---+----------+----------+
|     a|    0|    1|  1|       0.0|     100.0|
|     b|    1|    3|  4|      25.0|      75.0|
|     c|    2|    5|  7|     28.57|     71.43|
+------+-----+-----+---+----------+----------+

Run Code Online (Sandbox Code Playgroud)

或者用 withcolumn 循环：

col_list = ['col_1','col_2']
for i in col_list:
    df = df.withColumn(f"perc_{i}",F.round((F.col(i)/F.col("sum"))*100,2))
df.show()

Run Code Online (Sandbox Code Playgroud)

好东西，大佬，喜欢 (2认同)

归档时间：	3 年，7 月前
查看次数：	550 次
最近记录：	3 年，7 月前