INA*_*NAM 0 python pandas apache-spark pyspark
我在 Spark 中有一个巨大的数据列表,我只获取了它的标题并保存在 pandas 数据框中。
现在我想从中创建不同的列表来区分分类和数字
df2 = df.dtypes
df3 = pd.DataFrame(df2)
print(df3)
Run Code Online (Sandbox Code Playgroud)
df4= df3.filter(df3[1] = 'String')
这个statemnet给出错误:
语法错误:关键字不能是表达式
在这里我们可以得到分类数据和数值数据
让我们考虑一下 Kaggle 的 Ames Housing 数据集。
第1步:加载所需的库
import pandas as pd
import numpy as np
Run Code Online (Sandbox Code Playgroud)
第 2 步:加载数据集
dataset = pd.read_csv("C:/datasets/train.csv")
Run Code Online (Sandbox Code Playgroud)
步骤 3:分离数值变量和分类变量
numeric_data = dataset.select_dtypes(include=[np.number])
categorical_data = dataset.select_dtypes(exclude=[np.number])
numeric_data.shape[1]
categorical_data.shape[1]
Run Code Online (Sandbox Code Playgroud)
数据集中有 38 个数字列和 43 个分类列。