Spark 中的 DecisionTree.trainClassifier 参数是什么

Jin*_*ark 4 scala apache-spark apache-spark-mllib

我正在研究 Spark MLlib。在学习 DecisionTree 时,我看到以下 DecisionTree.trainClassifier 使用示例。

import org.apache.spark.mllib.tree._
val model = DecisionTree.trainClassifier(trainData, 7, Map[int, int](), "gini", 4, 100)
Run Code Online (Sandbox Code Playgroud)

这里有6个参数,我不明白第3个(Map)、第5个(4)和第6个(100)参数。

谷歌称它们是分类特征、lambda 和 alpha。谁能更好地解释一下它们吗?

需要你的帮助

小智 5

第三:
\ncategoricalFeaturesInfo:任何不在该地图中的特征都被视为连续的。

\n\n

例如,Map(0 -> 2, 4 -> 10) 指定特征 0 是二元的(取值 0 或 1),特征 4 有 10 个类别(值 {0, 1, ..., 9})。请注意,特征索引是从 0 开始的:特征 0 和 4 是实例\xe2\x80\x99s 特征向量的第 1 个和第 5 个元素。

\n\n

Map[Int,Int]表示所有特征都是数值类型。

\n\n

第五:
\nit 很容易理解,它是树的(最大)深度。

\n\n

第六
\nmaxBins:离散化连续特征时使用的 bin 数量。

\n\n

增加 maxBins 允许算法考虑更多的分割候选并做出细粒度的分割决策。然而,它也增加了计算和通信。

\n\n

请注意,maxBins 参数必须至少为最大类别数。

\n\n

您可以参考《Adcaned Analytics with Spark》一书(第 4.8-4.10 章)了解更多详细信息。

\n