为监督学习提供更新的培训数据 - 如何?

iha*_*nny 5 classification machine-learning

我们有一个网页分类器.分类器模型是使用大约2年前的列车数据构建的.我们已经注意到模型的性能不断恶化,我们假设它是由于网页的属性随时间而变化(主要是使用的单词和术语,还有拓扑,html标签等).

你会如何解决这个问题?我们只是重新构建整个列车数据并重新学习新模型吗?有捷径吗?是否有一些常见的做法或论文如何做到这一点?请注意,我们非常关注监督学习方法,系统管理员训练分类器,在测试集上评估其性能,然后在"生产"系统中安装分类器.

希望这不是太模糊......

Mat*_*cer 2

可能需要考虑许多因素,主要是分类器的状态和数据。

如果您不需要因更改网络协议而需要任何新输入,那么您可以根据新数据重新训练现有分类器。

如果分类器未被设计为针对新数据进行重新训练,则可能很难挽救旧模型。同样,如果输入或输出发生了变化,构建新的分类器也可能会更容易。

我不知道您正在使用什么分类器,也不知道重新训练或处理数据的方法,因此我无法为您面临的问题提供直接答案,或者是否有任何解决问题的捷径。这实际上取决于分类器的可访问性以及维护它的成本。

正如您在上面的问题中所述,建议在将新分类器应用于生产环境之前对其进行测试和比较,以确认其满足要求。