小编ran*_*ent的帖子

插值和插补有什么区别?

我刚刚了解到您可以通过插补和插值处理丢失的数据/ NaN,我刚刚发现插值是一种估计,一种在插补替换的同时在一组离散的已知数据点范围内构建新数据点的方法列均值的缺失数据。但还有比这更多的差异吗?何时是使用它们的最佳实践?

python-3.x pandas

6
推荐指数
1
解决办法
3071
查看次数

KFold 交叉验证不能修复过拟合

我将特征分离Xy然后在使用 k 折交叉验证将其拆分后预处理我的火车测试数据。之后,我将训练数据拟合到我的随机森林回归模型并计算置信度分数。拆分后为什么要预处理?因为人们告诉我这样做更正确,并且为了我的模型性能,我一直保持这个原则。

这是我第一次使用 KFold 交叉验证,因为我的模型分数过高,我想我可以通过交叉验证来修复它。我仍然对如何使用它感到困惑,我已经阅读了文档和一些文章,但我并没有真正理解我如何真正将它暗示给我的模型,但我还是尝试了,我的模型仍然过度拟合。使用训练测试拆分或交叉验证导致我的模型分数仍然是 0.999,我不知道我的错误是什么,因为我是使用这种方法的新手,但我想也许我做错了,所以它不能修复过度拟合。请告诉我我的代码有什么问题以及如何解决这个问题

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
import scipy.stats as ss
avo_sales = pd.read_csv('avocados.csv')

avo_sales.rename(columns = {'4046':'small PLU sold',
                            '4225':'large PLU sold',
                            '4770':'xlarge PLU sold'},
                 inplace= True)

avo_sales.columns = avo_sales.columns.str.replace(' ','')
x = np.array(avo_sales.drop(['TotalBags','Unnamed:0','year','region','Date'],1))
y = np.array(avo_sales.TotalBags)

# X_train, X_test, …
Run Code Online (Sandbox Code Playgroud)

python machine-learning python-3.x scikit-learn cross-validation

2
推荐指数
2
解决办法
251
查看次数

为回归模型选择正确的指标

我一直在使用r2 score指标。我知道有几个评估指标,我已经阅读了几篇关于它的文章。因为我还是机器学习的初学者。我仍然很困惑

  1. 什么时候使用它,取决于我们的情况,如果是,请举个例子
  2. 我读了这篇文章,它说r2 score并不简单,我们需要其他东西来衡量我们模型的性能。这是否意味着我们需要 1 个以上的评估指标才能更好地了解我们的模型性能?
  3. 如果我们只通过一个评估指标来衡量我们的模型性能,是否推荐?
  4. 从这篇文章中可以看出,了解我们的数据分布和我们的业务目标有助于我们了解选择合适的指标。这是什么意思?
  5. 如何知道每个指标模型是否“足够好”?

metrics regression machine-learning

2
推荐指数
1
解决办法
1529
查看次数

为什么 val_loss 和 val_accuracy 没有在纪元中显示

我正在尝试对图像进行分类,无论它们是猫、狗还是熊猫。数据包含所有图像(猫+狗+熊猫),标签包含它们的标签,但不知何故,当我将数据拟合到模型时, 和val_loss没有val_accuracy显示,每个时期中显示的唯一指标是lossaccuracy。我不知道为什么它没有出现,但我感觉这是因为我没有通过,validation_data所以我通过X_test.all()了,validation_data但仍然没有出现,我该怎么办?val_lossval_accuracy

data = np.array(data, dtype="float") / 255.0
labels = np.array(labels)

X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2)

model = tf.keras.models.Sequential([
  tf.keras.layers.Conv2D(32, (2,2), activation = 'relu', input_shape= (height, width, n_channels)),
  tf.keras.layers.MaxPooling2D(2,2),
  tf.keras.layers.Conv2D(64,(2,2), activation= 'relu'),
  tf.keras.layers.MaxPooling2D(2,2),
  tf.keras.layers.Conv2D(128,(2,2), activation= 'relu'),
  tf.keras.layers.MaxPooling2D(2,2),
  tf.keras.layers.Conv2D(256,(2,2), activation= 'relu'),
  tf.keras.layers.MaxPooling2D(2,2),
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(512, activation= 'relu'),
  tf.keras.layers.Dense(3, activation= 'softmax')
])

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

y_train = np_utils.to_categorical(y_train, 3)

model.fit(X_train, y_train, batch_size=32, epochs=25, verbose=1)
Run Code Online (Sandbox Code Playgroud)

python deep-learning keras tensorflow

2
推荐指数
1
解决办法
6486
查看次数

随机森林特征重要性与相关矩阵

我想看看变量之间的相关性。首先,我使用了相关矩阵。它向我展示了所有变量之间的相关性。然后我创建我的random forest regressor模型。在一篇文章中我发现它具有 的功能feature_importances_。它讲述了自变量和因变量之间的相关性。所以我尝试了它,然后我看到它显示与相关矩阵的值相同的相关值。我的问题是,那么相关矩阵和随机森林特征重要性有什么区别?

python machine-learning scikit-learn

1
推荐指数
1
解决办法
6813
查看次数