我遇到了一些与正则表达式和CategorizedPlaintextCorpusReaderPython有关的问题.
我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器.我的问题如下:我想要两个类别,"pos"和"neg".正面文件都在一个目录中main_dir/pos/*.txt,而负面文件在一个单独的目录中main_dir/neg/*.txt.
如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负数文件执行相同的操作?
注意:设置与Movie_reviewscorpus(~nltk_data\corpora\movie_reviews)完全相同.