pandas dataframe 中单独的数值变量和分类变量

Question

pandas dataframe 中单独的数值变量和分类变量

INA*_*NAM 0 python pandas apache-spark pyspark

我在 Spark 中有一个巨大的数据列表，我只获取了它的标题并保存在 pandas 数据框中。

现在我想从中创建不同的列表来区分分类和数字

df2 = df.dtypes
df3 = pd.DataFrame(df2)
print(df3)

Run Code Online (Sandbox Code Playgroud)

df4= df3.filter(df3[1] = 'String')

这个statemnet给出错误：

语法错误：关键字不能是表达式

Answer 1

Sye*_*dri 5

在这里我们可以得到分类数据和数值数据

让我们考虑一下 Kaggle 的 Ames Housing 数据集。

第1步：加载所需的库

import pandas as pd
import numpy as np

Run Code Online (Sandbox Code Playgroud)

第 2 步：加载数据集

dataset = pd.read_csv("C:/datasets/train.csv")

Run Code Online (Sandbox Code Playgroud)

步骤 3：分离数值变量和分类变量

numeric_data = dataset.select_dtypes(include=[np.number])
categorical_data = dataset.select_dtypes(exclude=[np.number])

numeric_data.shape[1]
categorical_data.shape[1]

Run Code Online (Sandbox Code Playgroud)

数据集中有 38 个数字列和 43 个分类列。

归档时间：	6 年，4 月前
查看次数：	20452 次
最近记录：	4 年，5 月前