我的模型是否应该在训练数据集上始终给出 100% 的准确率?

mri*_*ank 2 python machine-learning tf-idf scikit-learn naivebayes

from sklearn.naive_bayes import MultinomialNB # Multinomial Naive Bayes on Lemmatized Text

X_train, X_test, y_train, y_test = train_test_split(df['Rejoined_Lemmatize'], df['Product'], random_state = 0)

X_train_counts = tfidf.fit_transform(X_train)
clf = MultinomialNB().fit(X_train_counts, y_train)
y_temp = clf.predict(tfidf.transform(X_train))
Run Code Online (Sandbox Code Playgroud)

我正在训练数据集本身上测试我的模型。它给了我以下结果:

                          precision    recall  f1-score   support

               accuracy                           0.92    742500
              macro avg       0.93      0.92      0.92    742500
           weighted avg       0.93      0.92      0.92    742500
Run Code Online (Sandbox Code Playgroud)

训练数据集的准确度< 100% 是否可以接受?

小智 6

不,您不应该从训练数据集中获得 100% 的准确性。如果是这样,则可能意味着您的模型过度拟合。