NLTK:使用数字分数而不是标签进行文档分类

use*_*949 8 python nltk

根据一个项目,我一直在玩Python NLTK和文档分类以及朴素贝叶斯分类器.正如我从文档中理解的那样,如果您的不同文档被标记为pos或neg作为标签(或超过2个标签),则此方法非常有效

我正在使用的文件已经分类,没有标签,但它们有一个分数,一个0到5之间的浮点数.

我想要做的是构建一个分类器,就像文档中的电影示例一样,但这可以预测一段文本的分数,而不是标签.我相信这在文档中提到但从未进一步探讨为"数字特征的概率"

我不是语言专家,也不是统计学家,所以如果有人有这样的例子我会非常感激,如果你愿与我分享.谢谢!

Jac*_*cob 1

您正在寻找的是线性回归,而 scikit-learn 在这方面比 NLTK 好得多,请参阅http://scikit-learn.org/stable/modules/linear_model.html