我试图通过使用nltk工具包删除停用词来处理用户输入的文本,但是使用停用词删除时,会删除"and","或","not"等字样.我希望在禁用词删除过程之后出现这些单词,因为它们是稍后将文本作为查询处理所需的运算符.我不知道哪些是文本查询中可以成为运算符的单词,我还想从文本中删除不必要的单词.
我很难使用nltk消除和标记.text文件.我不断收到以下错误消息:AttributeError:'list'对象没有属性'lower'.我只是无法弄清楚我做错了什么,虽然这是我第一次做这样的事情.以下是我的代码.感谢任何建议,谢谢
Import nltk
from nltk.corpus import stopwords
s = open("C:\zircon\sinbo1.txt").read()
tokens = nltk.word_tokenize(s)
def cleanupDoc(s):
stopset = set(stopwords.words('english'))
tokens = nltk.word_tokenize(s)
cleanup = [token.lower()for token in tokens.lower() not in stopset and len(token)>2]
return cleanup
cleanupDoc(s)
Run Code Online (Sandbox Code Playgroud) 我有一些评论数据集,我想将其分为五类: -
jewelries, clothes, shoes, electronics, food & beverages
Run Code Online (Sandbox Code Playgroud)
因此,如果有人谈论猪肉,牛排,葡萄酒,苏打水,吃:它分类为f&b
然而,如果某些人谈论说 - 金,下垂,小盒子等:它被分类为珠宝
我想知道,我应该在评论/推文中寻找什么标签/代币,以便将其分类为任何这些类别.最后使用哪个分类器.我只需要一些指导和建议,我会从那里接受它.
请帮忙.谢谢
我有一个普通句子的文本文件.实际上我在键入该文件时很着急所以我只是将句子的第一个单词的首字母大写(按照英语语法).
但是现在我希望如果每个单词的第一个字母大写,那就更好了.就像是:
这句话的每个词都是大写的
要注意的一点在上面这句话是的并且是没有资本,其实我想逃避其具有等于或小于字3个字母.
我该怎么办?
nltk ×3
python ×3
stop-words ×2
facebook ×1
formatting ×1
nlp ×1
python-2.7 ×1
tokenize ×1
twitter ×1