pandas dataframe 中单独的数值变量和分类变量

INA*_*NAM 0 python pandas apache-spark pyspark

我在 Spark 中有一个巨大的数据列表,我只获取了它的标题并保存在 pandas 数据框中。

现在我想从中创建不同的列表来区分分类和数字

df2 = df.dtypes
df3 = pd.DataFrame(df2)
print(df3)
Run Code Online (Sandbox Code Playgroud)

df4= df3.filter(df3[1] = 'String')

这个statemnet给出错误:

语法错误:关键字不能是表达式

Sye*_*dri 5

在这里我们可以得到分类数据和数值数据

让我们考虑一下 Kaggle 的 Ames Housing 数据集。

第1步:加载所需的库

import pandas as pd
import numpy as np
Run Code Online (Sandbox Code Playgroud)

第 2 步:加载数据集

dataset = pd.read_csv("C:/datasets/train.csv")
Run Code Online (Sandbox Code Playgroud)

步骤 3:分离数值变量和分类变量

numeric_data = dataset.select_dtypes(include=[np.number])
categorical_data = dataset.select_dtypes(exclude=[np.number])

numeric_data.shape[1]
categorical_data.shape[1]
Run Code Online (Sandbox Code Playgroud)

数据集中有 38 个数字列和 43 个分类列。