小编use*_*449的帖子

何时使用Category而不是Object？

我有一个包含40个功能的CSV数据集,我正在处理Pandas.7个特征是连续的(int32),其余的是绝对的.

我的问题是:

我应该使用dtype('category')Pandas作为分类功能,还是可以使用默认值dtype('object')？

python csv types dataset pandas

use*_*449

2015 11-18

16
推荐指数

2
解决办法

5338
查看次数

Scikit-learn:roc_auc_score

我正在使用scikit-learn中的roc_auc_score函数来评估我的模型表现.不管怎么说,无论是使用predict()还是predict_proba(),我都会获得不同的值

p_pred = forest.predict_proba(x_test)
y_test_predicted= forest.predict(x_test)
fpr, tpr, _ = roc_curve(y_test, p_pred[:, 1])
roc_auc = auc(fpr, tpr)

roc_auc_score(y_test,y_test_predicted) # = 0.68
roc_auc_score(y_test, p_pred[:, 1])    # = 0.93

Run Code Online (Sandbox Code Playgroud)

可以提出建议吗？

提前致谢

python machine-learning scikit-learn auc

use*_*449

2015 06-04

7
推荐指数

1
解决办法

4583
查看次数

Spark shuffle溢出指标

在spark 2.3集群上运行作业,我在spark webUI中注意到某些任务发生溢出:

据我所知,在reduce方面,reducer获取了所需的分区(shuffle read),然后使用执行程序的执行内存执行reduce计算.由于没有足够的执行内存,一些数据被泄漏.

我的问题:

我对么？
数据泄漏的地方？Spark webUI声明一些数据溢出到内存shuffle溢出(内存),但没有任何内容溢出到磁盘shuffle spilled(磁盘)

在此先感谢您的帮助

shuffle apache-spark

use*_*449

lucky-day

6
推荐指数

0
解决办法

634
查看次数

标签统计

python ×2

apache-spark ×1

auc ×1

csv ×1

dataset ×1

machine-learning ×1

pandas ×1

scikit-learn ×1

shuffle ×1

types ×1

何时使用Category而不是Object？

Scikit-learn:roc_auc_score

Spark shuffle溢出指标

标签 统计

小编use_449的帖子

标签统计