小编use*_*449的帖子

何时使用Category而不是Object?

我有一个包含40个功能的CSV数据集,我正在处理Pandas.7个特征是连续的(int32),其余的是绝对的.

我的问题是:

我应该使用dtype('category')Pandas作为分类功能,还是可以使用默认值dtype('object')

python csv types dataset pandas

16
推荐指数
2
解决办法
5338
查看次数

Scikit-learn:roc_auc_score

我正在使用scikit-learn中的roc_auc_score函数来评估我的模型表现.不管怎么说,无论是使用predict()还是predict_proba(),我都会获得不同的值

p_pred = forest.predict_proba(x_test)
y_test_predicted= forest.predict(x_test)
fpr, tpr, _ = roc_curve(y_test, p_pred[:, 1])
roc_auc = auc(fpr, tpr)

roc_auc_score(y_test,y_test_predicted) # = 0.68
roc_auc_score(y_test, p_pred[:, 1])    # = 0.93
Run Code Online (Sandbox Code Playgroud)

可以提出建议吗?

提前致谢

python machine-learning scikit-learn auc

7
推荐指数
1
解决办法
4583
查看次数

Spark shuffle溢出指标

在spark 2.3集群上运行作业,我在spark webUI中注意到某些任务发生溢出:

在此输入图像描述

据我所知,在reduce方面,reducer获取了所需的分区(shuffle read),然后使用执行程序的执行内存执行reduce计算.由于没有足够的执行内存,一些数据被泄漏.

我的问题:

  1. 我对么 ?
  2. 数据泄漏的地方?Spark webUI声明一些数据溢出到内存shuffle溢出(内存),但没有任何内容溢出到磁盘shuffle spilled(磁盘)

在此先感谢您的帮助

shuffle apache-spark

6
推荐指数
0
解决办法
634
查看次数