相关疑难解决方法(0)

使用NLTK删除停用词

我试图通过使用nltk工具包删除停用词来处理用户输入的文本,但是使用停用词删除时,会删除"and","或","not"等字样.我希望在禁用词删除过程之后出现这些单词,因为它们是稍后将文本作为查询处理所需的运算符.我不知道哪些是文本查询中可以成为运算符的单词,我还想从文本中删除不必要的单词.

python nlp nltk stop-words

71
推荐指数
5
解决办法
15万
查看次数

使用NLTK摆脱停用词和文档标记化

我很难使用nltk消除和标记.text文件.我不断收到以下错误消息:AttributeError:'list'对象没有属性'lower'.我只是无法弄清楚我做错了什么,虽然这是我第一次做这样的事情.以下是我的代码.感谢任何建议,谢谢

Import nltk
from nltk.corpus import stopwords
s = open("C:\zircon\sinbo1.txt").read()
tokens = nltk.word_tokenize(s)
def cleanupDoc(s):
        stopset = set(stopwords.words('english'))
    tokens = nltk.word_tokenize(s)
    cleanup = [token.lower()for token in tokens.lower() not in stopset and  len(token)>2]
    return cleanup
cleanupDoc(s)
Run Code Online (Sandbox Code Playgroud)

tokenize nltk stop-words

6
推荐指数
1
解决办法
3万
查看次数

twitter/facebook评论分为各类

我有一些评论数据集,我想将其分为五类: -

jewelries, clothes, shoes, electronics, food & beverages
Run Code Online (Sandbox Code Playgroud)

因此,如果有人谈论猪肉,牛排,葡萄酒,苏打水,吃:它分类为f&b

然而,如果某些人谈论说 - 金,下垂,小盒子等:它被分类为珠宝

我想知道,我应该在评论/推文中寻找什么标签/代币,以便将其分类为任何这些类别.最后使用哪个分类器.我只需要一些指导和建议,我会从那里接受它.

请帮忙.谢谢

python twitter facebook machine-learning nltk

6
推荐指数
2
解决办法
2362
查看次数

如何大写文本文件中的某些单词?

我有一个普通句子的文本文件.实际上我在键入该文件时很着急所以我只是将句子的第一个单词的首字母大写(按照英语语法).

但是现在我希望如果每个单词的第一个字母大写,那就更好了.就像是:

这句话的每个词都是大写的

要注意的一点在上面这句话是并且没有资本,其实我想逃避其具有等于或小于字3个字母.

我该怎么办?

python formatting text-manipulation python-2.7

4
推荐指数
1
解决办法
2297
查看次数