小编jmz*_*jmz的帖子

执行PCA之前和之后的数据维度

我正在尝试使用Python和scikit-learn 进行kaggle.com的数字识别器竞赛.

从训练数据中删除标签后,我将CSV中的每一行添加到如下列表中:

for row in csv:
    train_data.append(np.array(np.int64(row)))
Run Code Online (Sandbox Code Playgroud)

我对测试数据做了同样的事情.

我使用PCA预处理这些数据以执行降维(和特征提取?):

def preprocess(train_data, test_data, pca_components=100):
    # convert to matrix
    train_data = np.mat(train_data)

    # reduce both train and test data
    pca = decomposition.PCA(n_components=pca_components).fit(train_data)
    X_train = pca.transform(train_data)
    X_test = pca.transform(test_data)

    return (X_train, X_test)
Run Code Online (Sandbox Code Playgroud)

然后我创建一个kNN分类器并将其与X_train数据拟合并使用数据进行预测X_test.

使用这种方法,我可以获得97%的准确率.

我的问题是关于PCA执行前后数据的维度

什么尺寸train_dataX_train

组件数量如何影响输出的维数?它们是一样的吗?

python numpy pca scikit-learn

6
推荐指数
1
解决办法
1815
查看次数

标签 统计

numpy ×1

pca ×1

python ×1

scikit-learn ×1