ali*_*ari 6 python keras tensorflow
这是我试过的代码:
# normalizing the train data
cols_to_norm = ["WORK_EDUCATION", "SHOP", "OTHER",'AM','PM','MIDDAY','NIGHT', 'AVG_VEH_CNT', 'work_traveltime', 'shop_traveltime','work_tripmile','shop_tripmile', 'TRPMILES_sum',
'TRVL_MIN_sum', 'TRPMILES_mean', 'HBO', 'HBSHOP', 'HBW', 'NHB', 'DWELTIME_mean','TRVL_MIN_mean', 'work_dweltime', 'shop_dweltime', 'firsttrip_time', 'lasttrip_time']
dataframe[cols_to_norm] = dataframe[cols_to_norm].apply(lambda x: (x - x.min()) / (x.max()-x.min()))
# labels
y = dataframe.R_SEX.values
Run Code Online (Sandbox Code Playgroud)
# splitting train and test set
X_train, X_test, y_train, y_test =train_test_split(X, y, test_size=0.33, random_state=42)
model = Sequential()
model.add(Dense(256, input_shape=(X_train.shape[1],), activation='relu'))
model.add(Dense(256, activation='relu'))
model.add(layers.Dropout(0.3))
model.add(Dense(256, activation='relu'))
model.add(layers.Dropout(0.3))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam' , metrics=['acc'])
print(model.summary())
model.fit(X_train, y_train , batch_size=128, epochs=30, validation_split=0.2)
Run Code Online (Sandbox Code Playgroud)
Epoch 23/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6623 - acc: 0.5985 - val_loss: 0.6677 - val_acc: 0.5918
Epoch 24/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6618 - acc: 0.5993 - val_loss: 0.6671 - val_acc: 0.5925
Epoch 25/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6618 - acc: 0.5997 - val_loss: 0.6674 - val_acc: 0.5904
Epoch 26/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6614 - acc: 0.6001 - val_loss: 0.6669 - val_acc: 0.5911
Epoch 27/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6608 - acc: 0.6004 - val_loss: 0.6668 - val_acc: 0.5920
Epoch 28/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6605 - acc: 0.6002 - val_loss: 0.6679 - val_acc: 0.5895
Epoch 29/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6602 - acc: 0.6009 - val_loss: 0.6663 - val_acc: 0.5932
Epoch 30/30
1014/1014 [==============================] - 4s 4ms/step - loss: 0.6597 - acc: 0.6027 - val_loss: 0.6674 - val_acc: 0.5910
<tensorflow.python.keras.callbacks.History at 0x7fdd8143a278>
Run Code Online (Sandbox Code Playgroud)
我曾尝试修改神经网络并仔细检查数据。
我能做些什么来改善结果吗?模型不够深?是否有适合我的数据的替代模型?这是否意味着这些特征没有预测价值?我有点困惑接下来要做什么。
谢谢你
更新:
我尝试在我的数据框中添加新列,这是用于性别分类的 KNN 模型的结果。这是我所做的:
#Import knearest neighbors Classifier model
from sklearn.neighbors import KNeighborsClassifier
#Create KNN Classifier
knn = KNeighborsClassifier(n_neighbors=41)
#Train the model using the training sets
knn.fit(X, y)
#predict sex for the train set so that it can be fed to the nueral net
y_pred = knn.predict(X)
#add the outcome of knn to the train set
X = X.assign(KNN_result=y_pred)
Run Code Online (Sandbox Code Playgroud)
它将训练和验证准确度提高了 61%。
Epoch 26/30
1294/1294 [==============================] - 8s 6ms/step - loss: 0.6525 - acc: 0.6166 - val_loss: 0.6604 - val_acc: 0.6095
Epoch 27/30
1294/1294 [==============================] - 8s 6ms/step - loss: 0.6523 - acc: 0.6173 - val_loss: 0.6596 - val_acc: 0.6111
Epoch 28/30
1294/1294 [==============================] - 8s 6ms/step - loss: 0.6519 - acc: 0.6177 - val_loss: 0.6614 - val_acc: 0.6101
Epoch 29/30
1294/1294 [==============================] - 8s 6ms/step - loss: 0.6512 - acc: 0.6178 - val_loss: 0.6594 - val_acc: 0.6131
Epoch 30/30
1294/1294 [==============================] - 8s 6ms/step - loss: 0.6510 - acc: 0.6183 - val_loss: 0.6603 - val_acc: 0.6103
<tensorflow.python.keras.callbacks.History at 0x7fe981bbe438>
Run Code Online (Sandbox Code Playgroud)
谢谢
简而言之:神经网络很少是对少量数据或已经由一些非异构列紧凑表示的数据进行分类的最佳模型。通常,增强方法或 GLM 会通过类似的努力产生更好的结果。
你能用你的模型做什么?与直觉相反,有时阻碍网络容量可能是有益的,特别是当网络参数的数量超过训练点的数量时。可以减少神经元的数量,例如在您的情况下将层大小设置为 16 左右并同时删除层;引入正则化(标签平滑、权重衰减等);或者通过添加更多不同(对数、二进制)比例的派生列来生成更多数据。
另一种方法是搜索为您的数据类型设计的神经网络模型。例如,自标准化神经网络或推荐系统的广泛和深度学习。
如果您只尝试一件事,我建议对学习率进行网格搜索或尝试一些不同的优化器。
如何更好地决定使用哪种模型?查看已完成的 kaggle.com 竞赛,找到与手头的数据集相似的数据集,然后查看排名靠前的地方使用的技术。
| 归档时间: |
|
| 查看次数: |
387 次 |
| 最近记录: |