更新 Python Pickle 对象

Question

更新 Python Pickle 对象

我正在做一个机器学习项目，为此我使用了picklePython 模块。

基本上，我正在解析一个巨大的数据集，这在一次执行中是不可能的，这就是为什么我需要保存分类器对象并在下一次执行中更新它。

所以我的问题是，当我使用新数据集再次运行程序时，已经创建的 pickle 对象是否会被修改（或更新）。如果不是，那么我如何在每次运行程序时更新相同的泡菜对象。

save_classifier = open("naivebayes.pickle","wb")
pickle.dump(classifier,save_classifier)
save_classifier.close()

Run Code Online (Sandbox Code Playgroud)

Answer 1

PM *_*ing 3

取消腌制classifier对象会以与腌制对象时相同的状态重新创建它，因此您可以继续使用数据集中的新数据来更新它。在程序运行结束时，您classifier再次 pickle 并将其再次保存到文件中。最好不要覆盖同一个文件，而是保留备份（或者更好的是，一系列备份），以防万一搞砸了。这样，您就可以轻松地恢复到已知的良好状态classifier。

您应该尝试腌制，使用一个简单的程序和一个简单的对象来腌制和取消腌制，直到您对这一切的工作原理完全有信心。

以下是如何更新腌制classifier数据的粗略草图。

import pickle
import os
from os.path import exists
# other imports required for nltk ...

picklename = "naivebayes.pickle"

# stuff to set up featuresets ...

featuresets = [(find_features(rev), category) for (rev, category) in documents]
numtrain = int(len(documents) * 90 / 100)
training_set = featuresets[:numtrain]
testing_set = featuresets[numtrain:]

# Load or create a classifier and apply training set to it
if exists(picklename):
    # Update existing classifier
    with open(picklename, "rb") as f:
        classifier = pickle.load(f)
    classifier.train(training_set)
else:
    # Create a brand new classifier    
    classifier = nltk.NaiveBayesClassifier.train(training_set)

# Create backup
if exists(picklename):
    backupname = picklename + '.bak'
    if exists(backupname):
        os.remove(backupname)
    os.rename(picklename, backupname)

# Save
with open(picklename, "wb") as f:
    pickle.dump(classifier, f)

Run Code Online (Sandbox Code Playgroud)

第一次运行该程序时，它将创建一个新的classifier，使用中的数据对其进行训练training_set，然后 pickleclassifier到“naivebayes.pickle”。随后每次运行此程序时，它都会加载旧程序classifier并对其应用更多训练数据。

顺便说一句，如果您在 Python 2 中执行此操作，您应该使用更快的cPickle模块；你可以通过替换来做到这一点

import pickle

Run Code Online (Sandbox Code Playgroud)

和

import cPickle as pickle

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，9 月前
查看次数：	11408 次
最近记录：	9 年，9 月前