Spark 中的 DecisionTree.trainClassifier 参数是什么

Question

我正在研究 Spark MLlib。在学习 DecisionTree 时，我看到以下 DecisionTree.trainClassifier 使用示例。

import org.apache.spark.mllib.tree._
val model = DecisionTree.trainClassifier(trainData, 7, Map[int, int](), "gini", 4, 100)

这里有6个参数，我不明白第3个（Map）、第5个（4）和第6个（100）参数。

谷歌称它们是分类特征、lambda 和 alpha。谁能更好地解释一下它们吗？

需要你的帮助

Answer 1

第三：
\ncategoricalFeaturesInfo：任何不在该地图中的特征都被视为连续的。

\n\n

例如，Map(0 -> 2, 4 -> 10) 指定特征 0 是二元的（取值 0 或 1），特征 4 有 10 个类别（值 {0, 1, ..., 9}）。请注意，特征索引是从 0 开始的：特征 0 和 4 是实例\xe2\x80\x99s 特征向量的第 1 个和第 5 个元素。

\n\n

Map[Int,Int]表示所有特征都是数值类型。

\n\n

第五：
\nit 很容易理解，它是树的（最大）深度。

\n\n

第六：
\nmaxBins：离散化连续特征时使用的 bin 数量。

\n\n

增加 maxBins 允许算法考虑更多的分割候选并做出细粒度的分割决策。然而，它也增加了计算和通信。

\n\n

请注意，maxBins 参数必须至少为最大类别数。

\n\n

您可以参考《Adcaned Analytics with Spark》一书（第 4.8-4.10 章）了解更多详细信息。

\n