我应该同时执行词形还原和词干提取吗？

Question

我正在用 Python 编写一个文本分类系统。这就是我正在做的标准化每个标记的事情：

lem, stem = WordNetLemmatizer(), PorterStemmer()
for doc in corpus:
    for word in doc:
        lemma = stem.stem(lem.lemmatize(word))

我不想仅仅进行词形还原的原因是因为我注意到它WordNetLemmatizer没有处理一些常见的词形变化。例如，对于副词来说，lem.lemmatize('walking')returns walking。

同时进行词干提取和词形还原是否明智？还是多余的？研究人员通常会选择其中之一，而不是两者都做？

Answer 1

从我的角度来看，同时进行词干提取和词形还原或仅进行其中之一会导致非常细微的差异，但我建议仅使用词干提取，因为词形还原有时需要“pos”才能更精确地执行。

例如，如果要对“better”进行词形还原，则应明确指示 pos： print(lemmatizer.lemmatize("better", pos="a"))

如果未提供，则默认为“名词”

Answer 2

步行的词形还原是不明确的。当用作形容词时，Walking 是它自己的基本形式（而不是 walk）。

更正：研究表明，在 IR 任务中，词干提取通常优于词形还原。可以在此处找到两者之间的定性比较和解释。