小编use*_*992的帖子

spark mllib 中逻辑回归的原始预测是什么?

我已经使用 spark mllib 运行了二元逻辑回归。根据 spark mllib 的文档,RawPrediction 是置信值,我假设 lcl 和 ucl 的概率。我正在获取 RawPrediction 的 -ve 值。在什么情况下,原始预测值可以是 -ve

logistic-regression apache-spark apache-spark-mllib

6
推荐指数
1
解决办法
1726
查看次数

如何处理spark ml中的决策树,随机森林的分类特征?

我正在尝试在UCI银行营销数据上构建决策树和随机森林分类器 - > https://archive.ics.uci.edu/ml/datasets/bank+marketing.数据集中有许多分类特征(具有字符串值).

在spark ml文档中,提到可以使用StringIndexer或VectorIndexer通过索引将分类变量转换为数字.我选择使用StringIndexer(矢量索引需要矢量特征和矢量汇编器,它将特征转换为矢量特征只接受数字类型).使用这种方法,分类特征的每个级别将根据其频率(对于类别特征的最频繁标签为0)分配数值.

我的问题是随机森林或决策树的算法将如何理解新特征(源自分类特征)与连续变量不同.索引特征在算法中会被认为是连续的吗?这是正确的方法吗?或者我应该继续使用One-Hot-Encoding进行分类功能.

我从这个论坛上读到了一些答案,但我没有弄清楚最后一部分.

decision-tree random-forest apache-spark-mllib

4
推荐指数
1
解决办法
3141
查看次数