是否可以修改和运行部分Python程序而无需一次又一次地运行所有这些程序?

sin*_*ist 3 python nltk pos-tagger nltk-trainer

我编写了一个Python代码,用于从NLTK库中训练Brill Tagger大约8000个英语句子并标记大约2000个句子.

Brill Tagger需要花费很多时间来训练,最后当它完成训练时,程序的最后一个语句有一些微小的语法错误,因此代码没有返回输出.

是否可以将标记器保持在训练状态,同时纠正错误并使程序运行而无需等待几个小时才能对标记器进行相同数据的培训?

Bai*_*ker 5

是! 你有几个选择.我经常使用的一件快速而又脏的东西就是掉到控制台.将其添加到脚本的末尾(训练结束后):

model = train_for_hours_and_hours()

import code
code.interact(local=locals())
Run Code Online (Sandbox Code Playgroud)

这与您从运行中获得的REPL完全相同python3,除了所有变量(包括您训练的模型)都可用:

$ python3 script.py
[ ... THREE HOURS LATER ... ]
> print(model)
<NLTK.Model ...>
Run Code Online (Sandbox Code Playgroud)

一个更永久的解决方案是序列化您的模型并在培训结束后立即将其保存到文件中.要做到这一点,你可以使用泡菜:

import pickle
MODEL_FILE = 'model.pickle'

try:
    # Try to load the model from disk
    with open(MODEL_FILE, 'rb') as f:
        model = pickle.load(f)
except FileNotFoundError:
    # Train the model if it doesn't exist yet
    model = train_for_hours_and_hours()
    with open(MODEL_FILE, 'wb') as f:
        pickle.dump(f, model)

# now use `model` here
Run Code Online (Sandbox Code Playgroud)