小编nxf*_*777的帖子

TF-IDF 变换后测试集和训练集中的特征数量不同导致的误差

我正在尝试创建一个 AI 来读取我的数据集并说明数据外部的输入是 1 还是 0

我的数据集具有定性数据列和布尔值列。这是其中的一个示例：

进口：

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
import re
import string

Run Code Online (Sandbox Code Playgroud)

打开并清理数据集：

saisei_data = saisei_data.dropna(how='any',axis=0) 
saisei_data = saisei_data.sample(frac=1)
X = saisei_data['Data']
y = saisei_data['Conscious']
saisei_data

Run Code Online (Sandbox Code Playgroud)

矢量化：

from sklearn.feature_extraction.text import TfidfVectorizer
vectorization = TfidfVectorizer()
xv_train = vectorization.fit_transform(X_train)
xv_test = vectorization.fit_transform(X_test)

Run Code Online (Sandbox Code Playgroud)

算法示例 - 逻辑回归：

LR = LogisticRegression()
LR.fit(xv_train,y_train)
pred_lr=LR.predict(xv_test) # Here is where …

Run Code Online (Sandbox Code Playgroud)

python machine-learning tf-idf python-3.x scikit-learn

nxf*_*777

2021 03-23

1
推荐指数

1
解决办法

1512
查看次数

标签统计

machine-learning ×1

python ×1

python-3.x ×1

scikit-learn ×1

tf-idf ×1

TF-IDF 变换后测试集和训练集中的特征数量不同导致的误差

进口：

打开并清理数据集：

矢量化：

算法示例 - 逻辑回归：

标签 统计

小编nxf_777的帖子

标签统计