我一直在学习一些使用神经网络进行关键点检测的教程。我注意到,对于输入(图像),除以255非常普遍(归一化为[0,1],因为值介于0到255之间)。但是我注意到,对于目标(X / Y)坐标,标准化为[-1,1]更为常见。这种差异的任何原因。
示例:http://danielnouri.org/notes/2014/12/17/using-convolutional-neural-nets-to-detect-facial-keypoints-tutorial/
X = np.vstack(df['Image'].values) / 255. # scale pixel values to [0, 1]
y = (y - 48) / 48 # scale target coordinates to [-1, 1]
Run Code Online (Sandbox Code Playgroud) normalization computer-vision neural-network keras tensorflow