现有功能的组合是否具有新功能？

Question

如果我添加现有特征的线性,非线性组合,是否有助于更好地分类？例如,它是否有助于添加均值,方差作为从现有要素计算的新要素？我相信它肯定取决于分类算法,如在PCA的情况下,算法本身生成彼此正交的新特征并且是输入特征的线性组合.但是在基于决策树的分类器或其他分类器的情况下它如何影响？

Answer 1

是的,现有功能的组合可以提供新功能并有助于分类.此外,特征与其自身的组合(例如,来自特征的多项式)可以用作在分类期间使用的该附加数据.

例如,考虑逻辑回归分类器,其核心公式为核心:

g(x, y) = 1*x + 2*y

想象一下,你有2个观察结果:

在这两种情况下g()都等于8.如果观察属于不同的类别,则无法区分它们.但是,让我们再添加一个变量(feature)z,它是前两个功能的组合 - z = x * y:

g(x, y, z) = 1*x + 2*y + 0.5*z

现在我们有相同的观察结果:

所以现在我们得到2个不同的点,可以区分2个观察点.

多项式特征(x ^ 2,x ^ 3,y ^ 2等)不提供额外的点,而是改变函数的图形.例如,g(x) = a0 + a1*x是一条线,g(x) = a0 + a1*x + a2*x^2而是抛物线,因此可以更紧密地拟合数据.