Mar*_*ark 4 java algorithm classification machine-learning
我正在寻找实现一个大约150个类别(可能是Java)的分类器,主要用于推文(所以非常小的文档).有些类具有非常相似的域,例如.'公司','竞争','消费者','国际法','国际组织','国际政治和政府'.当需要如此高的分辨率时,哪种算法/方法最好?我尝试过Naive Bayes(obv),到目前为止它的表现并不是很好(尽管这可能仅仅归因于训练数据的质量).社区的想法非常受欢迎!
谢谢,
标记
可能值得提出一个从(可能很多)级别的子分类器构建的分层分类器(即,为您的文档标签提供分类法).
单个分类器可以输出许多可能的类标签中的任何一个.
分层分类器将相关的类标签组合在一起,并执行附加的分类层,直到到达叶节点(或直到置信度降至某个阈值以下).
直觉是当分类数量较少时,分类器将更容易学习判别特征.
例如,分级分类器可以具有更容易的时间学习,这player
是指示运动的良好特征,而单个分类器将具有更难的时间,如果player
仅仅针对一个类别(篮球)而不是另一个(篮球).
归档时间: |
|
查看次数: |
909 次 |
最近记录: |