我刚刚了解到您可以通过插补和插值处理丢失的数据/ NaN,我刚刚发现插值是一种估计,一种在插补替换的同时在一组离散的已知数据点范围内构建新数据点的方法列均值的缺失数据。但还有比这更多的差异吗?何时是使用它们的最佳实践?
我将特征分离X,y然后在使用 k 折交叉验证将其拆分后预处理我的火车测试数据。之后,我将训练数据拟合到我的随机森林回归模型并计算置信度分数。拆分后为什么要预处理?因为人们告诉我这样做更正确,并且为了我的模型性能,我一直保持这个原则。
这是我第一次使用 KFold 交叉验证,因为我的模型分数过高,我想我可以通过交叉验证来修复它。我仍然对如何使用它感到困惑,我已经阅读了文档和一些文章,但我并没有真正理解我如何真正将它暗示给我的模型,但我还是尝试了,我的模型仍然过度拟合。使用训练测试拆分或交叉验证导致我的模型分数仍然是 0.999,我不知道我的错误是什么,因为我是使用这种方法的新手,但我想也许我做错了,所以它不能修复过度拟合。请告诉我我的代码有什么问题以及如何解决这个问题
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
import scipy.stats as ss
avo_sales = pd.read_csv('avocados.csv')
avo_sales.rename(columns = {'4046':'small PLU sold',
'4225':'large PLU sold',
'4770':'xlarge PLU sold'},
inplace= True)
avo_sales.columns = avo_sales.columns.str.replace(' ','')
x = np.array(avo_sales.drop(['TotalBags','Unnamed:0','year','region','Date'],1))
y = np.array(avo_sales.TotalBags)
# X_train, X_test, …Run Code Online (Sandbox Code Playgroud) python machine-learning python-3.x scikit-learn cross-validation
我一直在使用r2 score指标。我知道有几个评估指标,我已经阅读了几篇关于它的文章。因为我还是机器学习的初学者。我仍然很困惑
我正在尝试对图像进行分类,无论它们是猫、狗还是熊猫。数据包含所有图像(猫+狗+熊猫),标签包含它们的标签,但不知何故,当我将数据拟合到模型时, 和val_loss没有val_accuracy显示,每个时期中显示的唯一指标是loss和accuracy。我不知道为什么它没有出现,但我感觉这是因为我没有通过,validation_data所以我通过X_test.all()了,validation_data但仍然没有出现,我该怎么办?val_lossval_accuracy
data = np.array(data, dtype="float") / 255.0
labels = np.array(labels)
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2)
model = tf.keras.models.Sequential([
tf.keras.layers.Conv2D(32, (2,2), activation = 'relu', input_shape= (height, width, n_channels)),
tf.keras.layers.MaxPooling2D(2,2),
tf.keras.layers.Conv2D(64,(2,2), activation= 'relu'),
tf.keras.layers.MaxPooling2D(2,2),
tf.keras.layers.Conv2D(128,(2,2), activation= 'relu'),
tf.keras.layers.MaxPooling2D(2,2),
tf.keras.layers.Conv2D(256,(2,2), activation= 'relu'),
tf.keras.layers.MaxPooling2D(2,2),
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(512, activation= 'relu'),
tf.keras.layers.Dense(3, activation= 'softmax')
])
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
y_train = np_utils.to_categorical(y_train, 3)
model.fit(X_train, y_train, batch_size=32, epochs=25, verbose=1)
Run Code Online (Sandbox Code Playgroud) 我想看看变量之间的相关性。首先,我使用了相关矩阵。它向我展示了所有变量之间的相关性。然后我创建我的random forest regressor模型。在一篇文章中我发现它具有 的功能feature_importances_。它讲述了自变量和因变量之间的相关性。所以我尝试了它,然后我看到它显示与相关矩阵的值相同的相关值。我的问题是,那么相关矩阵和随机森林特征重要性有什么区别?
python ×3
python-3.x ×2
scikit-learn ×2
keras ×1
metrics ×1
pandas ×1
regression ×1
tensorflow ×1