在NLTK和Python中创建自定义分类语料库

Question

我遇到了一些与正则表达式和CategorizedPlaintextCorpusReaderPython有关的问题.

我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器.我的问题如下:我想要两个类别,"pos"和"neg".正面文件都在一个目录中main_dir/pos/*.txt,而负面文件在一个单独的目录中main_dir/neg/*.txt.

如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负数文件执行相同的操作？

注意:设置与Movie_reviewscorpus(~nltk_data\corpora\movie_reviews)完全相同.

Answer 1

这是我的问题的答案.由于我在考虑使用两个案例,我认为如果有人在将来需要答案的情况下,可以覆盖这两个案例.如果您具有与movie_review语料库相同的设置 - 几个文件夹标记的方式与您希望调用标签的方式相同,并且包含训练数据,您可以使用此文件夹.

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中并命名文件0_neg.txt,0_pos.txt,1_neg.txt等.您的读者的代码应如下所示:

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

我希望这将有助于将来的某些人.