使用列将NumPy数组转换为Pandas Dataframe

Question

使用列将NumPy数组转换为Pandas Dataframe

Spa*_*Boy 5 python numpy python-2.7 pandas scikit-learn

我想规范化我的分类和数值.

cols = df.columns.values.tolist()
df_num = df.drop(CAT_COLUMNS, axis=1)
df_num = df_num.as_matrix()
df_num = preprocessing.StandardScaler().fit_transform(df_num)

df.fillna('NA', inplace=True)
df_cat = df.T.to_dict().values()

vec_cat = DictVectorizer( sparse=False )
df_cat = vec_cat.fit_transform(df_cat)

Run Code Online (Sandbox Code Playgroud)

之后我需要将2个numpy数组组合回pandas数据帧,但是下面的方法对我来说不起作用.

mas = np.hstack((df_num, df_cat))
df = pd.DataFrame(data=mas, columns=cols)

Run Code Online (Sandbox Code Playgroud)

错误信息: ValueError: Shape of passed values is (475, 243), indices imply (83, 243)

还有一种方法:

columns = df.columns.values.tolist()
for col in columns:
    try:
        if col in CAT_COLUMNS:
            df[col] = pd.get_dummies(df[col])
        else:
            df[col] = df[col].apply(preprocessing.StandardScaler().fit)
    except Exception, err:
        print 'Column: %s and msg=%s' % (col, err.message)

Run Code Online (Sandbox Code Playgroud)

错误信息:

Column: DATE and msg=Singleton array array(1444424400.0) cannot be considered a valid collection. Column: QTR_HR_START and msg=Singleton array array(21600000L, dtype=int64) cannot be considered a valid collection. ...

PS.有没有办法避免numpy et all？例如,我想利用pandas_ml库

Answer 1

Spa*_*Boy 0

以下非常简单的方法怎么样？

def normalize_dataframe(df):
    columns = df.columns.values.tolist()
    for col in columns:
        try:
            if col in CAT_COLUMNS:
                df[col] = pd.get_dummies(df[col])
            else:
                df[col] = preprocessing.StandardScaler().fit_transform(df[col])
        except Exception, err:
            print 'Column: %s and msg=%s' % (col, err.message)
    return df

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，5 月前
查看次数：	2382 次
最近记录：	10 年，5 月前