按条件分组并创建三个新列 [低、命中、高]

Question

按条件分组并创建三个新列 [低、命中、高]

我有一个大型数据集（约 5 Mio 行），其中包含机器学习训练的结果。现在我想检查结果是否达到“目标范围”。假设这个范围包含-0.25和之间的所有值+0.25。如果它在这个范围内，那么它就是a Hit，如果它低于Low并且在另一边High。

我现在将创建这三列 Hit、Low、High 并计算适用条件的每一行并将 a 放入1该列中，其他两列将变为0。之后，我将对这些值进行分组并进行总结。但我怀疑一定有更好更快的方法，比如分组时直接计算。

数据

import pandas as pd

df = pd.DataFrame({"Type":["RF", "RF", "RF", "MLP", "MLP", "MLP"], "Value":[-1.5,-0.1,1.7,0.2,-0.7,-0.6]})

+----+--------+---------+
|    | Type   |   Value |
|----+--------+---------|
|  0 | RF     |    -1.5 | <- Low
|  1 | RF     |    -0.1 | <- Hit
|  2 | RF     |     1.7 | <- High
|  3 | MLP    |     0.2 | <- Hit
|  4 | MLP    |    -0.7 | <- Low
|  5 | MLP    |    -0.6 | <- Low
+----+--------+---------+

Run Code Online (Sandbox Code Playgroud)

预期输出

pd.DataFrame({"Type":["RF", "MLP"], "Low":[1,2], "Hit":[1,1], "High":[1,0]})

+----+--------+-------+-------+--------+
|    | Type   |   Low |   Hit |   High |
|----+--------+-------+-------+--------|
|  0 | RF     |     1 |     1 |      1 |
|  1 | MLP    |     2 |     1 |      0 |
+----+--------+-------+-------+--------+

Run Code Online (Sandbox Code Playgroud)

Answer 1

moz*_*way 11

您可以使用cut来定义组并pivot_table重塑：

(df.assign(group=pd.cut(df['Value'],
                        [float('-inf'), -0.25, 0.25, float('inf')],
                        labels=['Low', 'Hit', 'High']))
   .pivot_table(index='Type', columns='group', values='Value', aggfunc='count')
   .reset_index()
   .rename_axis(None, axis=1)
)

Run Code Online (Sandbox Code Playgroud)

或者crosstab：

(pd.crosstab(df['Type'],
             pd.cut(df['Value'],
                    [float('-inf'), -0.25, 0.25, float('inf')],
                    labels=['Low', 'Hit', 'High'])
             )
   .reset_index().rename_axis(None, axis=1)
 )

Run Code Online (Sandbox Code Playgroud)

输出：

  Type  Low  Hit  High
0  MLP    2    1     0
1   RF    1    1     1

Run Code Online (Sandbox Code Playgroud)

归档时间：	3 年，10 月前
查看次数：	542 次
最近记录：	2 年，10 月前