Vya*_*yar 56 python indexing slice multi-index pandas
代码示例:
In [171]: A = np.array([1.1, 1.1, 3.3, 3.3, 5.5, 6.6])
In [172]: B = np.array([111, 222, 222, 333, 333, 777])
In [173]: C = randint(10, 99, 6)
In [174]: df = pd.DataFrame(zip(A, B, C), columns=['A', 'B', 'C'])
In [175]: df.set_index(['A', 'B'], inplace=True)
In [176]: df
Out[176]:
C
A B
1.1 111 20
222 31
3.3 222 24
333 65
5.5 333 22
6.6 777 74
Run Code Online (Sandbox Code Playgroud)
现在,我想要检索A值:
Q1:在范围[3.3,6.6]中 - 预期返回值:[3.3,5.5,6.6]或[3.3,3.3,5.5,6.6],如果是最后一个,则[3.3,5.5 ]或[3.3,3.3,5.5],如果没有.
Q2:在[2.0,4.0]范围内 - 预期回报值:[3.3]或[3.3,3.3]
对于任何其他MultiIndex维度也是如此,例如B值:
Q3:在重复范围[111,500]中,作为范围内的数据行数 - 预期返回值:[111,222,222,333,333]
更正式:
我们假设T是一个包含A,B和C列的表.该表包含n行.表格单元格是数字,例如A double,B和C整数.让我们创建表T 的DataFrame,让我们将其命名为DF.让我们设置DF的列A和B索引(没有重复,即没有单独的列A和B作为索引,并作为数据分开),即在这种情况下为A和B的MultiIndex.
问题:
我知道上述问题的答案是在不是索引的列的情况下,但在索引案例中,经过长期的网络研究和对熊猫功能的实验,我没有成功.我现在看到的唯一方法(没有额外的编程)是除了索引之外还有A和B的副本作为数据列.
Vya*_*yar 64
要通过MultiIndex值查询df,例如where (A> 1.7)和(B <666):
In [536]: result_df = df.loc[(df.index.get_level_values('A') > 1.7) & (df.index.get_level_values('B') < 666)]
In [537]: result_df
Out[537]:
C
A B
3.3 222 43
333 59
5.5 333 56
Run Code Online (Sandbox Code Playgroud)
因此,要获得"A"索引值,如果仍然需要:
In [538]: result_df.index.get_level_values('A')
Out[538]: Index([3.3, 3.3, 5.5], dtype=object)
Run Code Online (Sandbox Code Playgroud)
问题是,在大数据帧中,索引选择的性能比排序的常规行选择差10%.在重复性工作中,循环,延迟累积.见例子:
In [558]: df = store.select(STORE_EXTENT_BURSTS_DF_KEY)
In [559]: len(df)
Out[559]: 12857
In [560]: df.sort(inplace=True)
In [561]: df_without_index = df.reset_index()
In [562]: %timeit df.loc[(df.index.get_level_values('END_TIME') > 358200) & (df.index.get_level_values('START_TIME') < 361680)]
1000 loops, best of 3: 562 µs per loop
In [563]: %timeit df_without_index[(df_without_index.END_TIME > 358200) & (df_without_index.START_TIME < 361680)]
1000 loops, best of 3: 507 µs per loop
Run Code Online (Sandbox Code Playgroud)
YaO*_*OzI 33
为了更好的可读性,我们可以简单地使用的query()方法,以避免冗长df.index.get_level_values()和reset_index/ set_index来回.
这是目标DataFrame:
In [12]: df
Out[12]:
C
A B
1.1 111 68
222 40
3.3 222 20
333 11
5.5 333 80
6.6 777 51
Run Code Online (Sandbox Code Playgroud)
Q1答案(A范围内[3.3, 6.6]):
In [13]: df.query('3.3 <= A <= 6.6') # for closed interval
Out[13]:
C
A B
3.3 222 20
333 11
5.5 333 80
6.6 777 51
In [14]: df.query('3.3 < A < 6.6') # for open interval
Out[14]:
C
A B
5.5 333 80
Run Code Online (Sandbox Code Playgroud)
当然<, <=, >, >=,任何人都可以参与其中.
同样,回答Q2(A范围内[2.0, 4.0]):
In [15]: df.query('2.0 <= A <= 4.0')
Out[15]:
C
A B
3.3 222 20
333 11
Run Code Online (Sandbox Code Playgroud)
回答Q3(B范围内[111, 500]):
In [16]: df.query('111 <= B <= 500')
Out[16]:
C
A B
1.1 111 68
222 40
3.3 222 20
333 11
5.5 333 80
Run Code Online (Sandbox Code Playgroud)
而且,你可以联合收割机的查询栏A和B非常自然!
In [17]: df.query('0 < A < 4 and 150 < B < 400')
Out[17]:
C
A B
1.1 222 40
3.3 222 20
333 11
Run Code Online (Sandbox Code Playgroud)
使用类似索引的'float',您总是希望将其用作列而不是直接索引操作.无论端点是否存在,这些都将起作用.
In [11]: df
Out[11]:
C
A B
1.1 111 81
222 45
3.3 222 98
333 13
5.5 333 89
6.6 777 98
In [12]: x = df.reset_index()
Run Code Online (Sandbox Code Playgroud)
Q1
In [13]: x.loc[(x.A>=3.3)&(x.A<=6.6)]
Out[13]:
A B C
2 3.3 222 98
3 3.3 333 13
4 5.5 333 89
5 6.6 777 98
Run Code Online (Sandbox Code Playgroud)
Q2
In [14]: x.loc[(x.A>=2.0)&(x.A<=4.0)]
Out[14]:
A B C
2 3.3 222 98
3 3.3 333 13
Run Code Online (Sandbox Code Playgroud)
Q3
In [15]: x.loc[(x.B>=111.0)&(x.B<=500.0)]
Out[15]:
A B C
0 1.1 111 81
1 1.1 222 45
2 3.3 222 98
3 3.3 333 13
4 5.5 333 89
Run Code Online (Sandbox Code Playgroud)
如果您想要返回索引,只需设置它们即可.这是一个廉价的操作.
In [16]: x.loc[(x.B>=111.0)&(x.B<=500.0)].set_index(['A','B'])
Out[16]:
C
A B
1.1 111 81
222 45
3.3 222 98
333 13
5.5 333 89
Run Code Online (Sandbox Code Playgroud)
如果你真的想要实际的索引值
In [5]: x.loc[(x.B>=111.0)&(x.B<=500.0)].set_index(['A','B']).index
Out[5]:
MultiIndex
[(1.1, 111), (1.1, 222), (3.3, 222), (3.3, 333), (5.5, 333)]
Run Code Online (Sandbox Code Playgroud)