假设我有一个非常大的数据帧,我想对其进行采样以尽可能匹配数据帧列的分布(在本例中为“偏差”列)。
我跑:
train['bias'].value_counts(normalize=True)
Run Code Online (Sandbox Code Playgroud)
并查看:
least 0.277220
left 0.250000
right 0.250000
left-center 0.141244
right-center 0.081536
Run Code Online (Sandbox Code Playgroud)
如果我想抽取训练数据帧的样本,其中样本的“偏差”列的分布与该分布相匹配,那么最好的方法是什么?