knt*_*tgu 4 python machine-learning scikit-learn dictvectorizer
我正在尝试通过大量数据训练我的二元分类器。之前我可以通过sklearn的fit方法来完成训练。但现在,我有更多的数据,我无法应付它们。我正在尝试部分安装它们,但无法消除错误。如何增量训练我的海量数据?通过应用我之前的方法,我收到有关管道对象的错误。我已经浏览了增量学习中的示例,但仍然运行这些代码示例会出现错误。我将不胜感激任何帮助。
X,y = transform_to_dataset(training_data)
clf = Pipeline([
('vectorizer', DictVectorizer()),
('classifier', LogisticRegression())])
length=len(X)/2
clf.partial_fit(X[:length],y[:length],classes=np.array([0,1]))
clf.partial_fit(X[length:],y[length:],classes=np.array([0,1]))
Run Code Online (Sandbox Code Playgroud)
错误
AttributeError: 'Pipeline' object has no attribute 'partial_fit'
Run Code Online (Sandbox Code Playgroud)
尝试给定的代码示例:
clf=SGDClassifier(alpha=.0001, loss='log', penalty='l2', n_jobs=-1,
#shuffle=True, n_iter=10,
verbose=1)
length=len(X)/2
clf.partial_fit(X[:length],y[:length],classes=np.array([0,1]))
clf.partial_fit(X[length:],y[length:],classes=np.array([0,1]))
Run Code Online (Sandbox Code Playgroud)
错误
File "/home/kntgu/anaconda2/lib/python2.7/site-packages/sklearn/utils/validation.py", line 573, in check_X_y
ensure_min_features, warn_on_dtype, estimator)
File "/home/kntgu/anaconda2/lib/python2.7/site-packages/sklearn/utils/validation.py", line 433, in check_array
array = np.array(array, dtype=dtype, order=order, copy=copy)
TypeError: float() argument must be a string or a number
Run Code Online (Sandbox Code Playgroud)
我的数据集由一些句子及其词性标签和依赖关系组成。
Thanks NN 0 root
to IN 3 case
all DT 1 nmod
who WP 5 nsubj
volunteered VBD 3 acl:relcl
. . 1 punct
You PRP 3 nsubj
will MD 3 aux
remain VB 0 root
as IN 5 case
alternates NNS 3 obl
. . 3 punct
Run Code Online (Sandbox Code Playgroud)
scikit-learn 中的对象Pipeline没有,如文档partial_fit中所示。
这样做的原因是您可以向该Pipeline对象添加任何您想要的估计器,并且并非所有估计器都实现partial_fit. 以下是受支持的估算器的列表。
如您所见,使用SGDClassifier(without Pipeline),您不会收到此“无属性”错误,因为支持此特定估计器。您收到的此错误消息可能是由文本数据引起的。您可以使用LabelEncoder来处理非数字列。
| 归档时间: |
|
| 查看次数: |
15980 次 |
| 最近记录: |