如果我添加现有特征的线性,非线性组合,是否有助于更好地分类?例如,它是否有助于添加均值,方差作为从现有要素计算的新要素?我相信它肯定取决于分类算法,如在PCA的情况下,算法本身生成彼此正交的新特征并且是输入特征的线性组合.但是在基于决策树的分类器或其他分类器的情况下它如何影响?
ffr*_*end 15
是的,现有功能的组合可以提供新功能并有助于分类.此外,特征与其自身的组合(例如,来自特征的多项式)可以用作在分类期间使用的该附加数据.
例如,考虑逻辑回归分类器,其核心公式为核心:
g(x, y) = 1*x + 2*y
Run Code Online (Sandbox Code Playgroud)
想象一下,你有2个观察结果:
在这两种情况下g()
都等于8.如果观察属于不同的类别,则无法区分它们.但是,让我们再添加一个变量(feature)z
,它是前两个功能的组合 - z = x * y
:
g(x, y, z) = 1*x + 2*y + 0.5*z
Run Code Online (Sandbox Code Playgroud)
现在我们有相同的观察结果:
所以现在我们得到2个不同的点,可以区分2个观察点.
多项式特征(x ^ 2,x ^ 3,y ^ 2等)不提供额外的点,而是改变函数的图形.例如,g(x) = a0 + a1*x
是一条线,g(x) = a0 + a1*x + a2*x^2
而是抛物线,因此可以更紧密地拟合数据.
归档时间: |
|
查看次数: |
5027 次 |
最近记录: |