Mar*_*son 21 language-agnostic indexing nlp filtering stop-words
我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的词,比如"a"和"the".
更新:这些显然被称为"停止词"而不是"跳过词".
根据您正在使用的英语子域,您可能/希望编译自己的停用词列表.一些通用的停用词在域中可能是有意义的.例如,"are"这个词实际上可能是某个领域的缩写/首字母缩略词.相反,您可能希望忽略某些特定于域的单词,具体取决于您在通用英语领域中可能不想忽略的应用程序.例如,如果您正在分析医院报告的语料库,您可能希望忽略"历史"和"症状"等词语,因为它们会在每个报告中找到并且可能没有用(从普通的香草倒置索引角度来看).
否则,Google返回的列表应该没问题.Porter Stemmer 使用它,Lucene seach引擎实现使用它.
| 归档时间: |
|
| 查看次数: |
19708 次 |
| 最近记录: |