TeF*_*eFa 7 algorithm classification machine-learning document-classification
嘿,这是我的问题,
给定一组文档,我需要将每个文档分配给预定义的类别.
我将使用n-gram方法来表示每个文档的文本内容,然后在我拥有的训练数据上训练SVM分类器.
如果我想念一些东西,请纠正我.
现在的问题是类别应该是动态的.意思是,我的分类器应该处理新类别的新训练数据.
因此,例如,如果我训练分类器将给定文档分类为类别A,类别B或类别C,然后我获得了类别D的新训练数据.我应该能够通过提供它来增量训练我的分类器. "D类"的新培训数据.
总而言之,我不想将旧的训练数据(包括3个类别)和新的训练数据(使用新的/看不见的类别)组合在一起并再次训练我的分类器.我想在飞行中训练我的分类器
这可以用SVM实现吗?如果没有,你能推荐我几种分类算法吗?或任何可以帮助我的书/纸.
提前致谢.
Naive-Bayes是相对快速的增量计算算法.
KNN本质上也是增量的,甚至更容易实现和理解.
这两种算法都在开源项目Weka中实现为NaiveBayes,而IBk用于KNN.
然而,从个人经验来看 - 它们都容易受到大量非信息性特征的影响(通常是文本分类的情况),因此通常使用某种特征选择来从这些算法中挤出更好的性能,这可能是有问题地实现为增量.
| 归档时间: |
|
| 查看次数: |
4716 次 |
| 最近记录: |