机器学习 - 从当前数据集生成新数据

mih*_*205 3 python machine-learning dataset scikit-learn

我从一些传感器测量值和一些标签创建了一个数据集,并对其进行了一些分类,结果很好。但是,由于我的数据集中的数据量相对较小(1400 个示例),我想根据这些数据生成更多数据。我的数据集中的每一行都包含 32 个数值和一个标签。

根据我拥有的现有数据集生成更多数据的最佳方法是什么?到目前为止,我已经研究了生成对抗网络和自动编码器,但我认为这种方法不适合我的情况。

到目前为止,我一直在 Scikit-learn 工作,但我也可以使用其他库。

Kam*_*mpi 5

关键字在这里Data Augmentation。您使用可用数据并对其稍加修改以生成与源数据稍有不同的其他数据。

请看一下这个链接。作者使用数据增强来旋转和翻转猫图像。因此,他从单个源图像生成了 6 个具有不同视角的附加图像。如果您将这个想法转移到您的传感器数据中,您可以向您的数据添加某种随机噪声以增加数据集。您可以在此处找到时间序列数据的数据增强的简单示例。 在此处输入图片说明

另一种做法是将数据加窗,将窗口移动一小步,这样窗口中的数据就有点不同了。

统计 stackexchange 的人写了一些关于它的东西。请检查以获取更多信息。