如何获取pandas DataFrame中第二大行值的列名

prc*_*bnt 7 python sorting numpy dataframe pandas

我有一个非常简单的问题 - 我认为 - 但似乎我无法绕过这个问题.我是Python和Pandas的初学者.我搜索了论坛,但无法获得符合我需要的(最近)答案.

我有一个这样的数据框:

df = pd.DataFrame({'A': [1.1, 2.7, 5.3], 'B': [2, 10, 9], 'C': [3.3, 5.4, 1.5], 'D': [4, 7, 15]}, index = ['a1', 'a2', 'a3'])
Run Code Online (Sandbox Code Playgroud)

这使:

          A   B    C   D
    a1  1.1   2  3.3   4
    a2  2.7  10  5.4   7
    a3  5.3   9  1.5  15
Run Code Online (Sandbox Code Playgroud)

我的问题很简单:我想添加一列,给出每行第二个最大值的列名.

我写了一个简单的函数,它返回每行的第二个最大值

def get_second_best(x):
    return sorted(x)[-2]

df['value'] = df.apply(lambda row: get_second_best(row), axis=1)
Run Code Online (Sandbox Code Playgroud)

这使:

      A   B    C   D  value
a1  1.1   2  3.3   4    3.3
a2  2.7  10  5.4   7    7.0
a3  5.3   9  1.5  15    9.0
Run Code Online (Sandbox Code Playgroud)

但是我找不到如何在'value'列中显示列名而不是值...我正在考虑布尔索引(比较'value'列值与每行),但我没有'我想出了怎么做.

为了更清楚,我希望它是:

      A   B    C   D  value
a1  1.1   2  3.3   4    C
a2  2.7  10  5.4   7    D
a3  5.3   9  1.5  15    B
Run Code Online (Sandbox Code Playgroud)

任何帮助(和解释)赞赏!

fug*_*ede 5

一种方法是使用来选择每一行中的两个最大元素,Series.nlargest并使用来找到对应于最小元素的列Series.idxmin

In [45]: df['value'] = df.T.apply(lambda x: x.nlargest(2).idxmin())

In [46]: df
Out[46]:
      A   B    C   D value
a1  1.1   2  3.3   4     C
a2  2.7  10  5.4   7     D
a3  5.3   9  1.5  15     B
Run Code Online (Sandbox Code Playgroud)

值得注意的是捡Series.idxminDataFrame.idxmin可以有所作为的性能代价:

df = pd.DataFrame(np.random.normal(size=(100, 4)), columns=['A', 'B', 'C', 'D'])
%timeit df.T.apply(lambda x: x.nlargest(2).idxmin()) # 39.8 ms ± 2.66 ms
%timeit df.T.apply(lambda x: x.nlargest(2)).idxmin() # 53.6 ms ± 362 µs
Run Code Online (Sandbox Code Playgroud)

编辑:添加到@jpp的答案,如果性能很重要,则可以通过使用Numba,像编写C一样编写代码并将其编译来大大提高速度:

from numba import njit, prange

@njit
def arg_second_largest(arr):
    args = np.empty(len(arr), dtype=np.int_)
    for k in range(len(arr)):
        a = arr[k]
        second = np.NINF
        arg_second = 0
        first = np.NINF
        arg_first = 0
        for i in range(len(a)):
            x = a[i]
            if x >= first:
                second = first
                first = x
                arg_second = arg_first
                arg_first = i
            elif x >= second:
                second = x
                arg_second = i
        args[k] = arg_second
    return args
Run Code Online (Sandbox Code Playgroud)

让我们比较形状分别为(1000, 4)和的两组数据的不同解决方案(1000, 1000)

df = pd.DataFrame(np.random.normal(size=(1000, 4)))
%timeit df.T.apply(lambda x: x.nlargest(2).idxmin())     # 429 ms ± 5.1 ms
%timeit df.columns[df.values.argsort(1)[:, -2]]          # 94.7 µs ± 2.15 µs
%timeit df.columns[np.argpartition(df.values, -2)[:,-2]] # 101 µs ± 1.07 µs
%timeit df.columns[arg_second_largest(df.values)]        # 74.1 µs ± 775 ns

df = pd.DataFrame(np.random.normal(size=(1000, 1000)))
%timeit df.T.apply(lambda x: x.nlargest(2).idxmin())     # 1.8 s ± 49.7 ms
%timeit df.columns[df.values.argsort(1)[:, -2]]          # 52.1 ms ± 1.44 ms
%timeit df.columns[np.argpartition(df.values, -2)[:,-2]] # 14.6 ms ± 145 µs
%timeit df.columns[arg_second_largest(df.values)]        # 1.11 ms ± 22.6 µs
Run Code Online (Sandbox Code Playgroud)

在最后一种情况下,通过使用@njit(parallel=True)并替换外环,我可以挤出更多一点并将基准降低到852 µs for k in prange(len(arr))


jpp*_*jpp 5

这是使用 NumPy 的一种解决方案。这个想法是针对argsort数据框中的值,选择倒数第二列,最后使用它来索引df.column

\n\n
df['value'] = df.columns[df.values.argsort(1)[:, -2]]\n\nprint(df)\n\n      A   B    C   D value\na1  1.1   2  3.3   4     C\na2  2.7  10  5.4   7     D\na3  5.3   9  1.5  15     B\n
Run Code Online (Sandbox Code Playgroud)\n\n

您应该发现这比基于 Pandas 的解决方案更有效:

\n\n
# Python 3.6, NumPy 1.14.3, Pandas 0.23.0\n\nnp.random.seed(0)\n\ndf = pd.DataFrame(np.random.normal(size=(100, 4)), columns=['A', 'B', 'C', 'D'])\n\n%timeit df.T.apply(lambda x: x.nlargest(2).idxmin())  # 49.6 ms\n%timeit df.T.apply(lambda x: x.nlargest(2)).idxmin()  # 73.2 ms\n%timeit df.columns[df.values.argsort(1)[:, -2]]       # 36.3 \xc2\xb5s\n
Run Code Online (Sandbox Code Playgroud)\n