使用python在高斯过程回归中对训练数据集进行数据增强

Question

使用python在高斯过程回归中对训练数据集进行数据增强

mys*_*.06 5 python machine-learning scikit-learn

我正在研究 scikit-learn 的高斯过程回归问题。为了执行预测，我有一个数据集，其中包含 3D 坐标中传感器的 10 个不同位置：例如

传感器 1 坐标：

[[  30.1678 -173.569   725.724 ]
 [  29.9895 -173.34    725.76  ]
 [  29.9411 -173.111   725.768 ]
 [  29.9306 -173.016   725.98  ]
 [  29.6754 -172.621   725.795 ]
 [  29.5277 -172.274   725.903 ]
 [  29.585  -171.978   726.111 ]
 [  29.4114 -171.507   726.188 ]
 [  29.3951 -170.947   726.173 ]
 [  29.3577 -170.196   726.384 ]]

Run Code Online (Sandbox Code Playgroud)

我使用 Leave One Out 技术执行 GPR，因此在每次运行中我使用 9 个 3D 坐标。训练我的模型并在 1 个坐标上对其进行测试。然后我改变排列继续。

为了防止过拟合问题，我想使用数据增强来放大（或添加噪声）我的训练数据。不幸的是，我见过的大多数数据增强技术都用于图像（随机旋转、裁剪、翻转等）。我的问题是：

有什么方法可以为我在 python 中的数据做这件事吗？
是否有任何限制适用于我上述数据的扩充。我可以为特定的 3D 坐标添加多少噪声。？
为列添加的新噪声数据x应介于最小值(29.585)和最大值之间(30.1678)。我对么？或者它也可以按行完成？

编辑

所以，我手动产生了噪音。

def use_data_augmentation(self, data):
   sizeOfData= 1000
        
   # Add noise to column x
   # Find min/max of each individual col
   noiseColXMin = np.min(data[:, 0])
   noiseColXMax = np.max(data[:, 0])

   # Generate random number between min/max
   addNoiseToColX = self.create_random_floats(noiseColXMin, noiseColXMax, sizeOfData)

   # Add noise to column y
   ...
   # Add noise to column z
   ...

   # Convert three 1D arrays to one 3D array
   addInputNoiseTotal = np.array([addNoiseToColX, addNoiseToColY, addNoiseToColZ]).T
   print('addInputNoiseTotal :\n', addInputNoiseTotal,
      '\nSDX:', np.std(addInputNoiseTotal[:, 0]),
      '\nSDY:', np.std(addInputNoiseTotal[:, 1]),
      '\nSDZ:', np.std(addInputNoiseTotal[:, 2]))

def create_random_floats(low, high, size):
   return [random.uniform(low, high) for _ in range(size)]

Run Code Online (Sandbox Code Playgroud)

我现在的问题是：如果我通过生成最小值/最大值之间的浮点数random.uniform(low, high, size)，那么噪声数据的标准偏差有时会大于0.8或1.0。因此 GPR 预测的 RMS 更差。如何设置限制，以便生成的浮点数的 SD 不能大于 eg 0.2？

Answer 1

Ewr*_*ran 0

鉴于两个独立随机变量之和的方差是其方差之和，您可以计算数据集的方差，并使用均匀随机变量的方差等于的事实，(high - low)**2 / 12并且标准偏差是方差的平方根，选择high满足low条件的值

np.sqrt(np.var(dataset) + (high - low)**2 / 12) <= 0.2

Run Code Online (Sandbox Code Playgroud)

这应确保生成的噪声数据的标准偏差小于或等于您的阈值0.2。

归档时间：	7 年，9 月前
查看次数：	624 次
最近记录：	4 年，7 月前