NLTK/NLP构建了多对多/多标签主题分类器

mat*_*hew 7 python statistics nlp machine-learning nltk

我有一个人类标记的语料库,包含超过5000个主题索引文档的XML.它们的大小从几百千字节到几百兆字节不等.作为手稿的短篇文章.它们都被编入了与段落级别一样深的索引.我很幸运有这样的语料库,我正在尝试自学一些NLP概念.不可否认,我才开始.到目前为止只阅读免费提供的NLTK书籍,streamhacker和略读jacobs(?)NLTK cookbook.我喜欢尝试一些想法.

有人建议,也许,我可以采用双字节并使用朴素的贝叶斯分类来标记新文档.我觉得这是错误的做法.Naive Bayes精通真假关系,但要在我的分层标签集上使用它,我需要为每个标签构建一个新的分类器.其中近1000个.我有内存和处理器能力来承担这样的任务,但我对结果持怀疑态度.但是,我将首先尝试这种方法,以安抚某人的请求.我可能会在接下来的一两天内完成这项任务,但我预测其准确性会很低.

所以我的问题有点开放.由于该学科的性质以及我的数据的一般不可靠性,很可能很难给出确切的答案.

  1. 什么样的分类器适合这项任务.我错了,贝叶斯可以用于多种真/假操作.

  2. 我应该为这样的任务追求什么特征提取.我并不期待这些双桅帆船.

每个文件还包含一些引用信息,包括作者,作者性别m,f,混合(m&f)和其他(Gov't inst等),文档类型,发布日期(当前16分) ,人类分析师,以及其他一些一般要素.我还要感谢一些有用的描述性任务,以帮助更好地研究性别偏见,分析师偏见等数据.但是要意识到这有点超出了这个问题的范围.

Fre*_*Foo 10

什么样的分类器适合这项任务.我错了,贝叶斯可以用于多种真/假操作.

您可以通过为每个类构建单独的二进制分类器来轻松构建多标记分类,从而可以区分该类和所有其他类.相应分类器产生正值的类是组合分类器的输出.您可以将NaïveBayes用于此算法或任何其他算法.(你也可以用NB的概率输出和阈值来玩弄技巧,但是NB的概率估计是非常糟糕的;只有它在它们中的排名才是有价值的.)

我应该为这样的任务追求什么特征提取

对于文本分类,已知tf-idf向量可以很好地工作,但是您没有指定确切的任务是什么.文档上的任何元数据都可能有效; 尝试做一些简单的统计分析.如果数据的任何特征在某些类中比在其他类中更频繁地存在,则它可能是有用的特征.