Scikit-learn：权重在岭回归中的作用

Question

Scikit-learn：权重在岭回归中的作用

Mar*_*rco 5 python regression machine-learning scikits scikit-learn

我正在使用该库scikit-learn对各个样本进行权重岭回归。这可以通过以下方式完成：esimator.fit(X, y, sample_weight=some_array)。直观上，我预计权重越大，相应样本的相关性就越大。

但是，我在以下 2-D 示例中测试了上述方法：

    from sklearn import linear_model
    import numpy
    import matplotlib.pyplot as plt

    #Data
    x= numpy.array([[0], [1],[2]])
    y= numpy.array([[0], [2],[2]])
    sample_weight = numpy.array([1,1, 1])
    #Ridge regression
    clf = linear_model.Ridge(alpha = 0.1)
    clf.fit(x, y, sample_weight = sample_weight)
    #Plot
    xp = numpy.linspace(-1,3)
    yp=list()
    for x_i in xp:    
        yp.append(clf.predict(x_i)[0,0])
    plt.plot(xp,yp)
    plt.hold(True)
    x = list(x)
    y = list(y)
    plt.plot(x,y,'or')

Run Code Online (Sandbox Code Playgroud)

我运行此代码，然后再次运行它，将第一个样本的权重加倍：

sample_weight = numpy.array([2,1, 1])

Run Code Online (Sandbox Code Playgroud)

所得的线条远离权重较大的样本。这是违反直觉的，因为我预计权重较大的样本具有较大的相关性。

我是否错误地使用了该库，或者其中有错误？

Answer 1

Dav*_*ale 2

权重没有颠倒。可能您犯了一个愚蠢的错误，或者存在一个sklearn现已修复的错误。代码

from sklearn import linear_model
import numpy
import matplotlib.pyplot as plt

#Data
x = numpy.array([[0], [1],[2]])
y = numpy.array([[0], [2],[2]])
sample_weight1 = numpy.array([1, 1, 1])
sample_weight2 = numpy.array([2, 1, 1])

#Ridge regressions
clf1 = linear_model.Ridge(alpha = 0.1).fit(x, y, sample_weight = sample_weight1)
clf2 = linear_model.Ridge(alpha = 0.1).fit(x, y, sample_weight = sample_weight2)

#Plot
plt.scatter(x,y)
xp = numpy.linspace(-1,3)
plt.plot(xp,clf1.predict(xp.reshape(-1, 1)))
plt.plot(xp,clf2.predict(xp.reshape(-1, 1)))
plt.legend(['equal weights', 'first obs weights more'])
plt.title('Increasing weight of the first obs moves the line closer to it');

Run Code Online (Sandbox Code Playgroud)

绘制此图，其中第二条线（第一条权重增加）更接近第一个观察值：

归档时间：	12 年，8 月前
查看次数：	5495 次
最近记录：	8 年，3 月前