用于级别名称的Pandas多索引切片

Question

用于级别名称的Pandas多索引切片

最新版本的Pandas支持多索引切片器.但是,需要知道不同级别的整数位置才能正确使用它们.

例如以下内容:

idx = pd.IndexSlice
dfmi.loc[idx[:,:,['C1','C3']],idx[:,'foo']]

Run Code Online (Sandbox Code Playgroud)

假定我们知道,第三行级是我们想要的索引与一个C1和C3,并且第二列级是我们要与指数的一个foo.

有时我知道级别的名称,但不知道它们在多索引中的位置.在这种情况下,有没有办法使用多索引切片？

例如,假设我知道要在每个级别名称上应用哪些切片,例如作为字典:

'level_name_1' -> ':' 
'level_name_2' -> ':'
'level_name_3' -> ['C1', 'C3']

Run Code Online (Sandbox Code Playgroud)

但我不知道多指数中这些水平的位置(深度).Pandas是否是内置的索引机制？

pd.IndexSlice如果我知道级别名称,但是不知道他们的位置,我还能以某种方式使用对象吗？

PD:我知道我可以使用reset_index(),然后只使用扁平列,但我想避免重置索引(即使暂时).我也可以使用query,但query要求索引名称与Python标识符兼容(例如,没有空格等).

我见过的最接近的是:

df.xs('C1', level='foo')

Run Code Online (Sandbox Code Playgroud)

哪个foo是关卡的名称,C1是感兴趣的值.

我知道它xs支持多个键,例如:

df.xs(('one', 'bar'), level=('second', 'first'), axis=1)

Run Code Online (Sandbox Code Playgroud)

但它不支持片或范围(如pd.IndexSlice不).

Answer 1

Jef*_*eff 6

这仍然是一个未解决的增强问题，请参见此处。支持这一点非常简单。欢迎提出请求！

您可以轻松地将其作为解决方法：

In [11]: midx = pd.MultiIndex.from_product([list(range(3)),['a','b','c'],pd.date_range('20130101',periods=3)],names=['numbers','letters','dates'])

In [12]: midx.names.index('letters')
Out[12]: 1

In [13]: midx.names.index('dates')
Out[13]: 2

Run Code Online (Sandbox Code Playgroud)

这是一个完整的例子

In [18]: df = DataFrame(np.random.randn(len(midx),1),index=midx)

In [19]: df
Out[19]: 
                                   0
numbers letters dates               
0       a       2013-01-01  0.261092
                2013-01-02 -1.267770
                2013-01-03  0.008230
        b       2013-01-01 -1.515866
                2013-01-02  0.351942
                2013-01-03 -0.245463
        c       2013-01-01 -0.253103
                2013-01-02 -0.385411
                2013-01-03 -1.740821
1       a       2013-01-01 -0.108325
                2013-01-02 -0.212350
                2013-01-03  0.021097
        b       2013-01-01 -1.922214
                2013-01-02 -1.769003
                2013-01-03 -0.594216
        c       2013-01-01 -0.419775
                2013-01-02  1.511700
                2013-01-03  0.994332
2       a       2013-01-01 -0.020299
                2013-01-02 -0.749474
                2013-01-03 -1.478558
        b       2013-01-01 -1.357671
                2013-01-02  0.161185
                2013-01-03 -0.658246
        c       2013-01-01 -0.564796
                2013-01-02 -0.333106
                2013-01-03 -2.814611

Run Code Online (Sandbox Code Playgroud)

这是您的级别名称字典 -> 切片

In [20]: slicers = { 'numbers' : slice(0,1), 'dates' : slice('20130102','20130103') }

Run Code Online (Sandbox Code Playgroud)

这将创建一个空的索引器（选择所有内容）

In [21]: indexer = [ slice(None) ] * len(df.index.levels)

Run Code Online (Sandbox Code Playgroud)

添加切片机

In [22]: for n, idx in slicers.items():
              indexer[df.index.names.index(n)] = idx

Run Code Online (Sandbox Code Playgroud)

然后选择（这必须是一个元组，但因为我们必须修改它，所以是一个开始的列表）

In [23]: df.loc[tuple(indexer),:]
Out[23]: 
                                   0
numbers letters dates               
0       a       2013-01-02 -1.267770
                2013-01-03  0.008230
        b       2013-01-02  0.351942
                2013-01-03 -0.245463
        c       2013-01-02 -0.385411
                2013-01-03 -1.740821
1       a       2013-01-02 -0.212350
                2013-01-03  0.021097
        b       2013-01-02 -1.769003
                2013-01-03 -0.594216
        c       2013-01-02  1.511700
                2013-01-03  0.994332

Run Code Online (Sandbox Code Playgroud)

PR 基本上会做我在这里所做的（添加一些错误检查测试和文档） (2认同)

归档时间：	11 年，8 月前
查看次数：	2240 次
最近记录：	11 年，8 月前