这是我的原始数据框。
这是我的第二个数据框,其中包含一列。
我想将第二个数据框的列添加到原始数据框的末尾。两个数据框的索引都不同。我确实是这样
feature_file_df['RESULT']=RESULT_df['RESULT']
Run Code Online (Sandbox Code Playgroud)
如何添加有值的列
我有一个包含二进制分类问题的不平衡数据集.我已经构建了随机森林分类器并使用了10倍折叠交叉验证.
kfold = model_selection.KFold(n_splits=10, random_state=42)
model=RandomForestClassifier(n_estimators=50)
Run Code Online (Sandbox Code Playgroud)
我得到了10倍的结果
results = model_selection.cross_val_score(model,features,labels, cv=kfold)
print results
[ 0.60666667 0.60333333 0.52333333 0.73 0.75333333 0.72 0.7
0.73 0.83666667 0.88666667]
Run Code Online (Sandbox Code Playgroud)
我通过取结果的均值和标准差来计算准确度
print("Accuracy: %.3f%% (%.3f%%)") % (results.mean()*100.0, results.std()*100.0)
Accuracy: 70.900% (10.345%)
Run Code Online (Sandbox Code Playgroud)
我计算了我的预测如下
predictions = cross_val_predict(model, features,labels ,cv=10)
Run Code Online (Sandbox Code Playgroud)
由于这是一个不平衡的数据集,我想计算每个折叠的精度,召回率和f1分数并对结果取平均值.如何计算python中的值?
python random-forest scikit-learn cross-validation supervised-learning
我有一个包含 4000 行和 60630 列的熊猫数据框。ml_file_df。列号从 0 开始一直到 60629
0 1 2 3
0 100 -5 jaya 27
1 80 1.5 shree 30
2 75 3.2 raju 31
Run Code Online (Sandbox Code Playgroud)
我希望我的标题从 1 开始。
1 2 3 4
0 100 -5 jaya 27
1 80 1.5 shree 30
2 75 3.2 raju 31
Run Code Online (Sandbox Code Playgroud)
我尝试使用
ml_file_df.rename(columns = [i for i in range(1,60630)])
Run Code Online (Sandbox Code Playgroud)
我收到此错误
TypeError: 'list' object is not callable
Run Code Online (Sandbox Code Playgroud)
如何解决这个问题