决策树(例如C4.5)是否被视为非参数学习?

sta*_*010 6 machine-learning decision-tree

我对机器学习相对较新,并且正在尝试将决策树归纳为宏观方案.决策树(例如,使用C4.5或ID3构建的树)是否被视为参数树或非参数树?我猜他们可能确实是参数化的,因为可以从特征值的某些分布(例如均值)确定实际值的决策分裂点.但是,它们不共享必须保留所有原始训练数据的非参数特征(就像使用kNN一样).

bog*_*ron 10

术语"参数"是指定义数据分布的参数.由于诸如C4.5之类的决策树不对数据的分布做出假设,因此它们是非参数的.高斯最大似然分类(GMLC)是参数的,因为它假设数据遵循多元高斯分布(类由均值和协方差表征).关于您的最后一句话,保留训练数据(例如,基于实例的学习)对于所有非参数分类器并不常见.例如,人工神经网络(ANN)被认为是非参数的,但它们不保留训练数据.

  • 这不太准确 - 你的解释在非正式意义上或多或少是正确的,但非参数模型的实际意义(与非参数测试不完全相同,我认为你很困惑)是参数和模型结构的数量由数据决定,而不是固定的先验.请参阅假设数据遵循分布的整个模型族的贝叶斯非参数,但参数的数量随数据增长而增加. (4认同)
  • 不需要分发。您可以按连续属性的值对所有实例进行排序,然后在最大化信息增益的两个值之间进行拆分。没有对数据的分布做出任何假设(即,没有假设数据呈正态分布或以其他方式分布)。 (3认同)
  • 不,对不起,我不是要这么说。因为树的结构由训练数据决定,所以它们是非参数的。但是,正如我上面提到的,它不像参数化概率分布=参数模型那样简单。 (2认同)

mar*_*arc 5

参数化一词是指模型参数数量与数据之间的关系。

如果参数数量固定,则模型是参数化的。

如果参数数量随着数据的增加而增加,则该模型是非参数的。

决策树是非参数的,但如果您限制其大小以进行正则化,那么参数的数量也会受到限制,并且可以被认为是固定的。所以决策树的划分并不是那么明确。

KNN 绝对是非参数的,因为参数集就是数据集:为了预测新数据点,KNN 模型需要访问训练数据点,而无需访问其他任何内容(超参数 K 除外)。