词干和淡化之间的区别

kay*_*fun 2 nlp stemming pluralize

在理解字符串匹配时:词干去污之间的确切区别是什么

或者他们的意思是一样的吗?

jog*_*pan 9

首先,词干是指将词语简化为词干的过程.但是,这可能意味着许多不同的事情.大多数语言学家至少区分两种方法:

  1. 删除语法,但不是派生词素.语法词素是单词的组成部分,与其在特定句子中的语法角色相关,例如数字,案例,性别,时态,方面等.

  2. 删除这两个语法和派生语素.派生词素是与其从另一个词派生相关的单词的组成部分,例如"工人"中的"-er"与从"工作"派生(或可以被视为派生)的方式有关.

因此,depluralization,这是一个相当不寻常的术语,但显然是指删除多个语素(如"计算机"末尾的"-s"),是一种词干的一部分,特别是删除的一部分语法(但不是派生)语素.

英语中,名词的形态在很大程度上局限于复数("计算机")和属格(第二种情况,"计算机"),因此就英语而言,depluralization可能被视为(几乎)与(语法)词干的同义词至少在词干应用于名词的程度上,以及在某种程度上,形容词,(例如在信息检索的背景下).然而,无论在何处考虑动词,过去时态,被动语态和其他屈折形式都会受到干扰(但不是去污化).

此外,在英语以外的语言中,甚至名词也可能具有非常丰富的形态,包括诸如案例,礼貌等级或特殊种类的复数(例如双重)之类的词素.然后,depluralization(如果你想使用该术语)将只涉及整个词干过程的一小部分.

另一个相关术语是词形还原,它通常与词干同义.我发现许多人(包括我自己)要做的两个区别是:

  • 词干术语用于指基于规则或基于机器学习的技术,该技术删除看起来像语法词素的单词(主要是结尾)的部分

  • 词形还原术用于指代同样的流程,但使用语言的实际词典来处理高度不规则的形式(例如复数"女性")

(但是,并非所有人都同意这种区别.)