如何从pandas multiindex获取随机(bootstrap)样本

Question

如何从pandas multiindex获取随机(bootstrap)样本

Chr*_*ris 6 python sampling multi-index pandas

我正在尝试从Pandas中的多索引数据框创建一个自举样本.下面是一些生成我需要的数据的代码.

from itertools import product
import pandas as pd
import numpy as np

df = pd.DataFrame({'group1': [1, 1, 1, 2, 2, 3],
                       'group2': [13, 18, 20, 77, 109, 123],
                       'value1': [1.1, 2, 3, 4, 5, 6],
                       'value2': [7.1, 8, 9, 10, 11, 12]
                       })
df = df.set_index(['group1', 'group2'])

print df

Run Code Online (Sandbox Code Playgroud)

df数据框如下所示:

                   value1  value2
group1 group2                
1      13         1.1     7.1
       18         2.0     8.0
       20         3.0     9.0
2      77         4.0    10.0
       109        5.0    11.0
3      123        6.0    12.0

Run Code Online (Sandbox Code Playgroud)

我想从第一个索引中获取一个随机样本.例如,假设随机值np.random.randint(3,size=3)产生[3,2,2].我希望结果数据框看起来像:

                   value1  value2
group1 group2                
3      123        6.0    12.0
2      77         4.0    10.0
       109        5.0    11.0
2      77         4.0    10.0
       109        5.0    11.0

Run Code Online (Sandbox Code Playgroud)

我花了很多时间研究这个,我一直无法找到一个类似的例子,其中多索引值是整数,二级索引是可变长度,主索引样本是重复的.这就是我认为引导的适当实现可行的方式.

Answer 1

piR*_*red 4

尝试：

df.unstack().sample(3, replace=True).stack()

Run Code Online (Sandbox Code Playgroud)

不适用于大型数据集：ValueError: Unstacked DataFrame is太大，导致int32溢出 (2认同)

归档时间：	9 年，6 月前
查看次数：	1141 次
最近记录：	9 年，6 月前