小编TE0*_*TE0的帖子

在NLTK和Python中创建自定义分类语料库

我遇到了一些与正则表达式和CategorizedPlaintextCorpusReaderPython有关的问题.

我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器.我的问题如下:我想要两个类别,"pos"和"neg".正面文件都在一个目录中main_dir/pos/*.txt,而负面文件在一个单独的目录中main_dir/neg/*.txt.

如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负数文件执行相同的操作?

注意:设置与Movie_reviewscorpus(~nltk_data\corpora\movie_reviews)完全相同.

python regex nlp nltk

10
推荐指数
1
解决办法
4188
查看次数

用于情感分析的短语语料库

美好的一天,我正在尝试在python(使用naive-bayes分类器)中编写一个感性分析应用程序,目的是将新闻中的短语分类为正面或负面.而且我在寻找合适的语料库时遇到了一些麻烦.我尝试使用"General Inquirer"(http://www.wjh.harvard.edu/~inquirer/homecat.htm),但是我有一个大问题.由于它是单词列表,而不是短语列表,因此在尝试标记以下句子时会发现以下问题:

预计他不会获胜.

这句话被归类为正面,这是错误的.原因是"胜利"是积极的,但"不"没有任何意义,因为"不胜"是一个短语.任何人都可以建议一个语料库或解决该问题?您的帮助和见解非常受欢迎.

python nlp nltk

5
推荐指数
1
解决办法
1351
查看次数

标签 统计

nlp ×2

nltk ×2

python ×2

regex ×1