Jam*_* Ko 7 python nlp machine-learning stemming nltk
我正在用 Python 编写一个文本分类系统。这就是我正在做的标准化每个标记的事情:
lem, stem = WordNetLemmatizer(), PorterStemmer()
for doc in corpus:
for word in doc:
lemma = stem.stem(lem.lemmatize(word))
Run Code Online (Sandbox Code Playgroud)
我不想仅仅进行词形还原的原因是因为我注意到它WordNetLemmatizer没有处理一些常见的词形变化。例如,对于副词来说,lem.lemmatize('walking')returns walking。
同时进行词干提取和词形还原是否明智?还是多余的?研究人员通常会选择其中之一,而不是两者都做?
从我的角度来看,同时进行词干提取和词形还原或仅进行其中之一会导致非常细微的差异,但我建议仅使用词干提取,因为词形还原有时需要“pos”才能更精确地执行。
例如,如果要对“better”进行词形还原,则应明确指示 pos: print(lemmatizer.lemmatize("better", pos="a"))
如果未提供,则默认为“名词”
| 归档时间: |
|
| 查看次数: |
11904 次 |
| 最近记录: |