英语的"停止词汇"列表?

Mar*_*son 21 language-agnostic indexing nlp filtering stop-words

我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的词,比如"a"和"the".

  • 我在哪里可以找到这些无趣的单词列表?
  • 这些单词的列表是否与英语中最常用的单词列表相同?

更新:这些显然被称为"停止词"而不是"跳过词".

Tho*_*mas 21

投入谷歌的神奇词汇是"停止词汇".这看起来很合理.

MySQL还有一个内置的停用词列表,但这对我的口味来说太过全面了.例如,在我们的大学图书馆,我们遇到了问题,因为"第三世界"中的"第三"被认为是一个停止词.

  • [nltk](http://nltk.org)(自然语言工具包,一个python库)附带了一堆资源,包括一个禁用语料库(Porter等),"用于11种语言的2,400个停用词".您可以使用独立于工具包的禁用词列表. (3认同)

Ahm*_*aid 5

这些被称为停用词,请检查此示例

  • 您的链接已关闭,存档:http://web.archive.org/web/20080501010608/http://www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/stop_words (2认同)

has*_*ble 5

根据您正在使用的英语子域,您可能/希望编译自己的停用词列表.一些通用的停用词在域中可能是有意义的.例如,"are"这个词实际上可能是某个领域的缩写/首字母缩略词.相反,您可能希望忽略某些特定域的单词,具体取决于您在通用英语领域中可能不想忽略的应用程序.例如,如果您正在分析医院报告的语料库,您可能希望忽略"历史"和"症状"等词语,因为它们会在每个报告中找到并且可能没有用(从普通的香草倒置索引角度来看).

否则,Google返回的列表应该没问题.Porter Stemmer 使用它,Lucene seach引擎实现使用它.