小编ZaM*_*ZaM的帖子

在特定文件上测试NLTK分类器

以下代码运行Naive Bayes电影评论分类器.该代码生成一个信息最丰富的功能列表.

注意: **movie review**文件夹在nltk.

from itertools import chain
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import movie_reviews
stop = stopwords.words('english')

documents = [([w for w in movie_reviews.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in movie_reviews.fileids()]


word_features = FreqDist(chain(*[i for i,j in documents]))
word_features = word_features.keys()[:100]

numtrain = int(len(documents) * 90 / 100)
train_set = [({i:(i in tokens) for i in …

Run Code Online (Sandbox Code Playgroud)

nlp classification nltk python-2.7 text-classification

ZaM*_*ZaM

2017 05-23

8
推荐指数

1
解决办法

2396
查看次数

使用我自己的语料库而不是movie_reviews语料库在NLTK中进行分类

我使用以下代码,并使用NLTK/Python中的电影评论语料库进行分类

import string
from itertools import chain
from nltk.corpus import movie_reviews as mr
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.classify import NaiveBayesClassifier as nbc
import nltk

stop = stopwords.words('english')
documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]

word_features = FreqDist(chain(*[i for i,j in documents]))
word_features = word_features.keys()[:100]

numtrain = int(len(documents) * 90 / 100)
train_set = [({i:(i in tokens) for i in …

Run Code Online (Sandbox Code Playgroud)

nlp classification corpus nltk python-2.7

ZaM*_*ZaM

2017 05-23

5
推荐指数

1
解决办法

4240
查看次数