我说的是 Python Pandas.agg()函数,这个:
meanData = all_data.groupby(['Id'])[features].agg('mean')
因此,它可以执行以下操作:
它还能做什么?我在官方文档页面上什么也没找到:https : //pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.DataFrameGroupBy.agg.html
这是我的代码:
random_idx = np.random.permutation(len(cIds))
train_Ids = cIds[random_idx[:train_size]]
Run Code Online (Sandbox Code Playgroud)
现在,我希望每次运行这行代码时,列表都以相同的顺序随机化.
注意:我不想random_idx在文本文件中保存变量,并获取相同的列表.
我想将 numpy 数组的第 12 列作为分类特征传递。
该列具有从 1 到 10 的 int 值。
我试过这个:
cbr.fit(X_train, y,
eval_set=(X_train_test, y_test),
cat_features=[X_train[:,12]],
use_best_model=True,
verbose=100)
Run Code Online (Sandbox Code Playgroud)
但是得到了这个错误:
CatboostError: 'data' 是 np.float32 的 numpy 数组,这意味着没有分类特征,但 'cat_features' 参数指定了非零数量的分类特征