NLTK在一个分类器中有多个功能集？

Question

NLTK在一个分类器中有多个功能集？

izy*_*yda 2 python nlp nltk

在NLTK中,使用一个朴素的贝叶斯分类器,我从例子中知道它非常简单地使用"词袋"方法并寻找unigrams或bigrams或两者.你能用两套完全不同的功能吗？

例如,我可以使用unigrams和训练集的长度(我知道这里曾经提到过一次)吗？但是对我来说更感兴趣的是像文件中出现的bigrams和"bigrams"或POS的组合？

这是否超出了基本的NLTK分类器的功能？

谢谢Alex

Answer 1

Jac*_*cob 5

NLTK分类器可以使用任何键值字典.我{"word": True}用于文本分类,但你也可以{"contains(word)": 1}用来达到同样的效果.您还可以将许多功能组合在一起,这样您就可以拥有{"word": True, "something something": 1, "something else": "a"}.最重要的是您的功能是一致的,因此您始终拥有相同类型的键和一组固定的可能值.可以使用数字值,但分类器对它们并不聪明 - 它会将数字视为离散值,因此99和100与1和100不同.如果您希望以更智能的方式处理数字,然后我建议使用scikit-learn分类器.

归档时间：	13 年，6 月前
查看次数：	1288 次
最近记录：	13 年，6 月前