Rob*_*art 7 nlp classification machine-learning nltk
我有分类问题,我需要找出解决它的最佳方法.我有一套培训文件,其中一些文件中的句子和/或段落标有一些标签.并非所有句子/段落都被标记.句子或段落可能有多个标签/标签.我想做的是制作一些模型,在给出新文档的情况下,它会给出文档中每个句子/段落的建议标签.理想情况下,它只会给我高概率的建议.
如果我使用像nltk NaiveBayesClassifier这样的东西,它会给出不好的结果,我认为因为它没有考虑训练文档中的"未标记"句子,这些句子将包含许多与标记句子相似的单词和短语.这些文件具有法律/财务性质,并且充满法律/财务术语,其中大多数应在分类模型中打折扣.
除了来自训练集的标记数据之外,还有一些比Naive Bayes更好的分类算法,还是有一些方法可以将未标记的数据推入朴素的贝叶斯?
有没有办法将未标记的数据推送到朴素贝叶斯中
“标记”和“未标记”数据之间没有区别,特别是朴素贝叶斯构建简单的条件概率,因此P(label|attributes)
它P(no label|attributes)
在很大程度上基于使用的处理管道,但我非常怀疑它实际上忽略了未标记的部分。如果由于某种原因这样做,并且您不想修改代码,您还可以向所有剩余的文本段引入一些人工标签“无标签”。
有没有比朴素贝叶斯更好的分类算法
是的,NB实际上是最基本的模型,还有几十个更好(更强、更通用)的模型,它们在文本标注方面取得了更好的效果,包括: