PolynomialFeatures 和 LinearRegression 返回不需要的系数

Question

PolynomialFeatures 和 LinearRegression 返回不需要的系数

goo*_*ing 3 python regression machine-learning scikit-learn overfitting-underfitting

import os
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

csv_path = os.path.join('', 'graph.csv')
graph = pd.read_csv(csv_path)

y = graph['y'].copy()
x = graph.drop('y', axis=1)

pipeline = Pipeline([('pf', PolynomialFeatures(2)), ('clf', LinearRegression())])
pipeline.fit(x, y)

predict = [[16], [20], [30]]

plt.plot(x, y, '.', color='blue')
plt.plot(x, pipeline.predict(x), '-', color='black')
plt.plot(predict, pipeline.predict(predict), 'o', color='red')
plt.show()

Run Code Online (Sandbox Code Playgroud)

我的graph.csv：

x,y
1,1
2,2
3,3
4,4
5,5
6,5.5
7,6
8,6.25
9,6.4
10,6.6
11,6.8

Run Code Online (Sandbox Code Playgroud)

结果产生：

它显然产生了错误的预测；随着每个 x，y 应该增加。

我错过了什么？我尝试改变学位，但并没有变得更好。例如，当我使用度数 4 时，y 增加得非常快。

Answer 1

uke*_*emi 7

随着每个 x，y 应该增加。

您的数据确实存在正线性趋势，如果您将线性回归量（即 1 次多项式）拟合到它，这就是您在样本数据之外的预测中看到的：

但是您已经对二次回归量进行了建模，因此它尽可能将二次曲线拟合到这些点。您的模型正在学习数据中的轻微“弯曲”作为曲线中的静止点，因此当您向右延伸时，它会减小：

如果您认为这种行为显然是错误的，那么您必须对数据的分布有一些假设。如果是这样，您应该使用这些来驱动您的模型选择。

我尝试改变学位，但并没有变得更好。例如，当我使用度数 4 时，y 增加得非常快。

您可以选择更高程度的多项式，如果你认为二次不够灵活映射数据的基本趋势。但是多项式的行为可能会超出数据的极值范围：


立方体	四次	昆蒂克

如您所见，多项式越复杂，它对特定数据点样本的确切趋势进行建模的灵活性就越大，但它超出数据范围的概括性越差。

这被称为过拟合。

有很多策略可以避免这种情况，例如：

收集更多数据
给你的数据添加噪音
添加正则化项
选择更简单的模型

在这种情况下，最简单的方法是后者 - 如果您怀疑您的数据遵循线性趋势，请为其拟合线性模型。

Answer 2

Man*_*sse 6

@iacob 提供了一个很好的答案，我只会扩展它。

如果您确定with each x, y should increase，那么您的数据点可能遵循对数缩放模式。为此调整您的代码会产生以下曲线：

如果这与您要查找的内容相对应，这里是代码片段：

import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

csv_path = os.path.join('', 'graph.csv')
graph = pd.read_csv(csv_path)

y = graph['y'].copy()
x = graph.drop('y', axis=1)

x_log = np.log(x)

pipeline = Pipeline([('pf', PolynomialFeatures(1)), ('clf', LinearRegression())])
pipeline.fit(x_log, y)

predict = np.log([[16], [20], [30]])

plt.plot(np.exp(x_log), y, '.', color='blue')
plt.plot(np.exp(x_log), pipeline.predict(x_log), '-', color='black')
plt.plot(np.exp(predict), pipeline.predict(predict), 'o', color='red')
plt.show()

Run Code Online (Sandbox Code Playgroud)

请注意，我们只是对 x 数据点 ( x_log)的对数进行多项式回归（这里线性回归就足够了）。

归档时间：	4 年，8 月前
查看次数：	166 次
最近记录：	4 年，7 月前