小编Jon*_*ler的帖子

基于列分布随机采样 Pandas 数据框

假设我有一个非常大的数据帧,我想对其进行采样以尽可能匹配数据帧列的分布(在本例中为“偏差”列)。

我跑:

train['bias'].value_counts(normalize=True)
Run Code Online (Sandbox Code Playgroud)

并查看:

least           0.277220
left            0.250000
right           0.250000
left-center     0.141244
right-center    0.081536
Run Code Online (Sandbox Code Playgroud)

如果我想抽取训练数据帧的样本,其中样本的“偏差”列的分布与该分布相匹配,那么最好的方法是什么?

python pandas

7
推荐指数
1
解决办法
6459
查看次数

标签 统计

pandas ×1

python ×1