为什么这些词被视为停用词?

Leg*_*end 11 language-agnostic nlp machine-learning nltk stop-words

我没有正式的自然语言处理背景,想知道NLP方面的人是否可以对此有所了解.我正在玩NLTK库,我特意调查了这个包提供的停用词功能:

在[80]中:nltk.corpus.stopwords.words('english')

出[80]:

['我','我','我','我自己','我们','我们','我们','我们','你','你','你','你自己','你自己,'他','他','他','他自己','她','她','她','自己','它','它','本身','他们' ,'他们','他们','他们','他们','什么','哪个','谁','谁','这个','那个','这些','那些',' am','is','are','was','are','be','been','being','have','has','have','have','do' ,'做','做','做','a','an','the','和','但','if','或','因为','为','直到','','',','at','by','for','with','about','on','between','to',','through','' ,'之前','之后','上方','下方','来','来','上','下','进','出','开','关','超过','再次','进一步','然后','一次','这里','那里','何时','何处','为什么','如何','所有' ,'任何','两者','每个','少数','更多','最','其他','某些','这样','不','也','不','只有','拥有','相同','如此','比','太','非常','s','t','可以','将','只是','不' ,'应该','不 W']

我不明白的是,"为什么"这个词不存在?是否有必要确定句子内的情绪?例如,这样的句子:

我不确定问题是什么.

一旦not删除了禁用词,就会完全不同,将句子的含义改为对面(I am sure what the problem is).如果是这种情况,那么在不使用这些停用词时我是否缺少一套规则?

Rug*_*man 16

停用词列表的概念没有普遍意义,取决于你想做什么.如果你有一个任务,你需要了解一个短语的极性,情绪或类似的特征,如果你的方法取决于检测否定(如你的例子),显然你不应该删除"不"作为一个停止词(请注意,您可能仍希望删除其他非常常见的无关单词,这些单词将构成您的新单词列表.

但是,要回答你的问题,大多数情绪分析方法都非常肤浅.他们寻找充满情感/情感的词语,并且 - 大部分时间 - 他们不会尝试对句子进行深入分析.

作为另一个你想要保留停止词的例子:如果你试图根据他们的作者(作者属性)或者执行测针学来对文档进行分类,那么你应该保留这些功能词,因为它们表征了很大一部分.风格和话语.

然而,对于许多其他类型的分析(例如,文字空间模型,文档相似性,搜索等),删除非常常见的功能词在计算上(你处理较少的单词)和在某些情况下实际上是有意义的(你甚至可以获得更好的结果)删除了停用词).如果我试图理解经常使用特定单词的上下文,我希望看到内容单词,而不是功能单词.