如何在Keras的密集方法中决定图层的大小?

nev*_*int 8 python machine-learning scikit-learn deep-learning keras

以下是具有IRIS数据的多类分类任务的简单示例.

import seaborn as sns
import numpy as np
from sklearn.cross_validation import train_test_split
from keras.models import Sequential
from keras.layers.core import Dense, Activation, Dropout
from keras.regularizers import l2
from keras.utils import np_utils


#np.random.seed(1335)

# Prepare data
iris = sns.load_dataset("iris")
iris.head()
X = iris.values[:, 0:4]
y = iris.values[:, 4]


# Make test and train set
train_X, test_X, train_y, test_y = train_test_split(X, y, train_size=0.5, random_state=0)


################################
# Evaluate Keras Neural Network
################################


# Make ONE-HOT
def one_hot_encode_object_array(arr):
    '''One hot encode a numpy array of objects (e.g. strings)'''
    uniques, ids = np.unique(arr, return_inverse=True)
    return np_utils.to_categorical(ids, len(uniques))

train_y_ohe = one_hot_encode_object_array(train_y)
test_y_ohe = one_hot_encode_object_array(test_y)


model = Sequential()
model.add(Dense(16, input_shape=(4,),
      activation="tanh",
      W_regularizer=l2(0.001)))
model.add(Dropout(0.5))
model.add(Dense(3, activation='sigmoid'))
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')


# Actual modelling
# If you increase the epoch the accuracy will increase until it drop at
# certain point. Epoch 50 accuracy 0.99, and after that drop to 0.977, with
# epoch 70 
hist = model.fit(train_X, train_y_ohe, verbose=0,   nb_epoch=100,  batch_size=1)


score, accuracy = model.evaluate(test_X, test_y_ohe, batch_size=16, verbose=0)
print("Test fraction correct (NN-Score) = {:.2f}".format(score))
print("Test fraction correct (NN-Accuracy) = {:.2f}".format(accuracy))
Run Code Online (Sandbox Code Playgroud)

我的问题是人们通常如何决定图层的大小?例如,根据上面的代码,我们有:

model.add(Dense(16, input_shape=(4,),
      activation="tanh",
      W_regularizer=l2(0.001)))
model.add(Dense(3, activation='sigmoid'))
Run Code Online (Sandbox Code Playgroud)

第一个参数Dense是16,第二个参数是3.

  • 为什么两个层为Dense使用两个不同的值?
  • 我们如何选择Dense的最佳价值?

Mat*_*gro 10

基本上它只是反复试验.这些被称为超参数,应该在验证集上进行调整(从原始数据拆分为训练/验证/测试).

调整只是意味着尝试不同的参数组合,并根据问题保持验证集上具有最低损耗值或更高精度的参数.

有两种基本方法:

  • 网格搜索:对于每个参数,确定一个范围和步进到该范围,如8到64个神经元,功率为2(8,16,32,64),并尝试每个参数组合.这显然需要训练和测试指数数量的模型并花费大量时间.

  • 随机搜索:执行相同操作,但只需为每个参数定义一个范围,然后尝试从每个范围内的均匀分布中抽取的随机参数集.您可以尝试尽可能多的参数集,以及您可以使用多长时间.这只是一个明智的随机猜测.

不幸的是,没有其他方法来调整这些参数.关于具有不同神经元数量的层,可能来自调整过程,或者您也可以将其视为降维,就像前一层的压缩版本一样.


Joe*_*iro 8

没有已知的方法来确定评估输入或输出数量的良好网络结构。它基本上依赖于网络的每个重要参数中的训练示例数量、批量大小、时期数。

此外,大量单元会引入诸如过度拟合和梯度爆炸问题之类的问题。另一方面,较少的单元数会导致模型具有高偏差和低精度值。同样,这取决于用于训练的数据大小。

可悲的是,它正在尝试一些不同的值,为您提供最佳调整。如上一篇文章所述,您可以选择能够为您提供最低损失和验证损失值以及数据集最佳准确度的组合。

你可以对你的单位价值做一些比例,比如:

# Build the model
model = Sequential()
model.add(Dense(num_classes * 8, input_shape=(shape_value,),  activation = 'relu' )) 
model.add(Dropout(0.5))

model.add(Dense(num_classes * 4, activation = 'relu'))
model.add(Dropout(0.2))

model.add(Dense(num_classes * 2, activation = 'relu'))
model.add(Dropout(0.2))

#Output layer
model.add(Dense(num_classes, activation = 'softmax'))
Run Code Online (Sandbox Code Playgroud)

上面的模型显示了分类 AI 系统的示例。num_classes 是系统必须选择的不同类别的数量。例如,在来自 Keras 的 iris 数据集中,我们有:

  • 鸢尾花
  • 变色鸢尾
  • 鸢尾花

num_classes = 3

但是,与其他随机值相比,这可能会导致更糟糕的结果。我们需要通过进行一些不同的尝试来调整训练数据集的参数,然后分析寻找最佳参数组合的结果。