我有一个包含40个功能的CSV数据集,我正在处理Pandas.7个特征是连续的(int32),其余的是绝对的.
我的问题是:
我应该使用dtype('category')Pandas作为分类功能,还是可以使用默认值dtype('object')?
我正在使用scikit-learn中的roc_auc_score函数来评估我的模型表现.不管怎么说,无论是使用predict()还是predict_proba(),我都会获得不同的值
p_pred = forest.predict_proba(x_test)
y_test_predicted= forest.predict(x_test)
fpr, tpr, _ = roc_curve(y_test, p_pred[:, 1])
roc_auc = auc(fpr, tpr)
roc_auc_score(y_test,y_test_predicted) # = 0.68
roc_auc_score(y_test, p_pred[:, 1]) # = 0.93
Run Code Online (Sandbox Code Playgroud)
可以提出建议吗?
提前致谢
在spark 2.3集群上运行作业,我在spark webUI中注意到某些任务发生溢出:
据我所知,在reduce方面,reducer获取了所需的分区(shuffle read),然后使用执行程序的执行内存执行reduce计算.由于没有足够的执行内存,一些数据被泄漏.
我的问题:
在此先感谢您的帮助
python ×2
apache-spark ×1
auc ×1
csv ×1
dataset ×1
pandas ×1
scikit-learn ×1
shuffle ×1
types ×1