小编Pra*_*ras的帖子

pandas idxmax：如果有关系则返回所有行

我正在使用一个数据框，其中我按概率对每一行进行加权。现在，我想选择概率最高的行，我使用 pandas idxmax() 来这样做，但是当有平局时，它只返回平局中的第一行。就我而言，我想获取所有 tie 的行。

此外，作为研究项目的一部分，我正在这样做，我正在处理数百万个如下所示的数据帧，因此保持快速是一个问题。

例子：

我的数据如下所示：

data = [['chr1',100,200,0.2],
    ['ch1',300,500,0.3],
    ['chr1', 300, 500, 0.3],
    ['chr1', 600, 800, 0.3]]

Run Code Online (Sandbox Code Playgroud)

从这个列表中，我创建了一个 Pandas 数据框，如下所示：

weighted = pd.DataFrame.from_records(data,columns=['chrom','start','end','probability'])

Run Code Online (Sandbox Code Playgroud)

看起来像这样：

  chrom  start  end  probability
0  chr1    100  200          0.2
1   ch1    300  500          0.3
2  chr1    300  500          0.3
3  chr1    600  800          0.3

Run Code Online (Sandbox Code Playgroud)

然后使用以下方法选择适合 argmax(probability) 的行：

selected =  weighted.ix[weighted['probability'].idxmax()]

Run Code Online (Sandbox Code Playgroud)

哪个当然返回：

chrom          ch1
start          300
end            500
probability    0.3
Name: 1, dtype: object

Run Code Online (Sandbox Code Playgroud)

当有关系时，是否有（快速）方法来获取所有值？

谢谢！

python performance pandas argmax

Pra*_*ras

2018 10-01

7
推荐指数

2
解决办法

4560
查看次数

到目前为止，我一直在使用 pybedtools merge 来执行此操作，但事实证明，执行数百万次（我的情况）时速度很慢。因此，我正在寻找其他选择，而 pandas 是显而易见的选择。我知道使用 pandas groupby可以对要合并的列应用不同的操作，例如nunique和sum，这是我需要应用的操作。尽管如此，pandas groupby 仅合并具有精确“chrom”、“start”和“end”坐标的数据。

我的问题是我不知道如何使用 pandas 根据坐标（chrom、start、end）合并行，然后应用求和和 …

python bioinformatics pandas

Pra*_*ras

2019 10-24

5
推荐指数

1
解决办法

5283
查看次数