如何复制估算器以便在多个数据集上使用它?

tja*_*nez 20 python machine-learning scikit-learn

以下是创建两个数据集的示例:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# data set 1
X1, y1 = make_classification(n_classes=2, n_features=5, random_state=1)
# data set 2
X2, y2 = make_classification(n_classes=2, n_features=5, random_state=2)
Run Code Online (Sandbox Code Playgroud)

我想使用LogisticRegression具有相同参数值的估计器来拟合每个数据集上的分类器:

lr = LogisticRegression()

clf1 = lr.fit(X1, y1)
clf2 = lr.fit(X2, y2)

print "Classifier for data set 1: "
print "  - intercept: ", clf1.intercept_
print "  - coef_: ", clf1.coef_

print "Classifier for data set 2: "
print "  - intercept: ", clf2.intercept_
print "  - coef_: ", clf2.coef_
Run Code Online (Sandbox Code Playgroud)

问题是两个分类器都是一样的:

Classifier for data set 1: 
  - intercept:  [ 0.05191729]
  - coef_:  [[ 0.06704494  0.00137751 -0.12453698 -0.05999127  0.05798146]]
Classifier for data set 2: 
  - intercept:  [ 0.05191729]
  - coef_:  [[ 0.06704494  0.00137751 -0.12453698 -0.05999127  0.05798146]]
Run Code Online (Sandbox Code Playgroud)

对于这个简单的例子,我可以使用类似的东西:

lr1 = LogisticRegression()
lr2 = LogisticRegression()

clf1 = lr1.fit(X1, y1)
clf2 = lr2.fit(X2, y2)
Run Code Online (Sandbox Code Playgroud)

避免这个问题.但问题仍然存在:如何复制/复制具有特定参数值的估算器?

Fre*_*Foo 25

from sklearn.base import clone

lr1 = LogisticRegression()
lr2 = clone(lr1)
Run Code Online (Sandbox Code Playgroud)

  • 当循环遍历列表中的估算器时,Python 迭代会生成列表中估算器的副本(而不是参考),在这种情况下是否仍然需要克隆估算器?在这种情况下不克隆它有什么危险吗? (2认同)
  • 请注意,如果您想复制“经过训练的”模型,请使用“deepcopy”,“clone”不会保留任何“经过训练的”参数。 (2认同)